自動駕駛、泛電商、網際網路金融認證等這些全球最火爆的產業成功背後的關鍵技術是什麼?各大廠攻城獅們年薪百萬的秘籍又是什麼?而我們又如何能在”內卷洪流”中衝出重圍,”不肝”、”不躺”,登上人生巔峰,甚至做出點改變世界的貢獻?
這絕對不是一篇雞湯水文,而是紮紮實實地為大家深入介紹當今智慧視覺領域飛速發展背後的強大推手,是一項你絕對需要了解的關鍵技術---智慧影象識別系統!!!
圖1 PP-ShiTu效果示意圖
你以為影象識別就是泛泛的人臉識別、物品檢測嗎?你以為影象識別就是目標檢測、影象分類這些基礎技術粗暴迭代海量資料的結果嗎?大錯特錯!這背後是綜合目標檢測、影象分類、度量學習、影象檢索等技術的【通用影象識別系統】!
除基礎技術架構外,影象識別任務實際產業落地過程中又面臨很多實際難點:
1. 【演算法迭代難】識別類別數以萬計!像新零售這種行業,新品幾乎都是按小時級別在更新!
2. 【誤識別誤報率高】細分類差別極其細微,實際影象角度多變刁鑽,親媽都分辨不出!
3.【預測效率要求高】演算法上線執行速度要求極高,在閘機前還得等3s才能過,根本不能接受嘛!!
然鵝,沒有什麼能夠阻擋,我們聰明勤奮的開發者們對前進的嚮往!飛槳就推出了一個全開源、超輕量級影象識別系統PP-ShiTu!
不僅基於上述關鍵技術模組完整構建了”開箱即用”的影象識別系統,還完美的解決了產業落地中的重重難點!最新的版本相較於原版更是在推理速度上提升了八倍!
小編不禁發出感慨:要問影象識別哪家強,中國AI找飛槳!
那這個”看起來很厲害”的影象識別系統到底長啥樣,具體咋用,是不是僅僅是”看起來很厲害”呢?下面我們就一起來看看吧!
圖3 PP-ShiTu架構示意圖
超輕量的主題檢測
主體檢測作為整個識別任務的第一步,其本身的精度、效能, 都直接影響整個識別系統的識別效果。PP-ShiTu中使用PP-PicoDet模型作為主體檢測演算法,PP-PicoDet模型效能和速度均達到業內SOTA的水平,為整個識別系統實現精準高效識別打下了堅實的基礎。
高效的特徵提取模組
影象識別的又一大問題就是如何讓模型提取到更好的特徵。在特徵提取的訓練階段,PP-ShiTu透過使用度量學習,更好地解決高相似度物體的區分問題。不僅如此,PP-ShiTu所使用的骨幹網路PP-LCNet作為業內SOTA模型,大幅度提升預測速度的同時,還提高了精度,並且可能直接支援多種應用方向和場景,真節省開發成本的一把好手!
圖4 PP-ShiTu 特徵提取原理示意圖
快速向量檢索支援
在實際應用中,海量的影象、影片特徵不僅會消耗巨大的儲存空間,而且檢索時間極長,給影象識別的最後一公里設下路障。PP-ShiTu則是結合DeepHash和度量學習,甚至在檢索庫特徵數量大於10萬時,依然使得所需的儲存空間減少32倍,檢索速度提高5倍以上。除此以外PP-ShiTu使用的向量搜尋模組Faiss,可以更好地適應多平臺的需求(Linux, Windows, MacOs),為實際應用提供靈活選擇。
這樣一個高效系統使用起來卻只需三步,絕對的 ”開箱即用”!
- 第一步透過目標檢測模型,進行主體檢測;
- 第二步對每個候選區域進行特徵提取;
- 第三步將特徵提取後的向量在檢索庫中進行檢索,完成匹配,返回識別結果。
圖5 PP-ShiTu使用流程示例
而且尤為實用的功能在於:實際上線使用的時候,遇到新的需要識別的類別,無需重新訓練模型,只需要在檢索庫中增加該類別影象特徵,就能夠完成識別!