sponsored links

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

背景故事

2018 年,當時我在工廠實習,我開始研究目標檢測技術,因為我需要解決視覺檢測問題。 這個問題需要在來自工業相機的影象流中檢測許多不同的物體目標。

為了應對這一挑戰,我首先嚐試將分類與滑窗法結合使用。 自然,該系統非常緩慢且不適合生產。

在此之後,我開始研究執行目標檢測的端到端深度學習模型。偶然間,我發現了一篇來自Gooogle研究的著名論文,題為:Speed/accuracy trade-offs for modern convolutional object detectors.

這篇論文對我產生了很大的影響,也是我對使用深度學習的對目標檢測領域所需要的經驗介紹。

目標檢測是一項古老的任務,深度學習給它帶來了什麼?

現在,目標檢測是計算機視覺領域中相對古老的任務。在深度學習成為主流之前,許多研究人員和工程師都在研究這個問題。 他們主要使用經典的影象處理技術,可能經常使用滑窗法。 那麼深度學習對目標檢測的附加價值是什麼?

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

實際上,深度學習從根本上改變了我們處理目標檢測的方式。隨著 YOLO 和 R-CNN 系列的引入,目標檢測的效能顯著提高。大多數用於影象相關任務的神經網路使用卷積層。這些神經網路稱為 CNN(卷積神經網路)。 這些 CNN 實際上自然而有效地執行了一種滑窗法。 這是神經網路如何學習影象表徵的一部分。

目標檢測技術的研究現狀

在我寫這篇文章的時候,談論最多的目標檢測模型是 YOLOR(You Only Learn One Representation)。設計該模型架構的研究人員正在尋找整合“隱性知識”的方法。這種隱性知識應該代表神經網路中的潛意識。作者想要構建一個架構,模仿我們人類在現實生活中解決目標檢測任務的方式。這種架構可能是未來工作的基礎,它集成了這種隱式知識的概念,不僅用於目標檢測,還用於各種計算機視覺任務。

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

還有另一種架構可以成為許多未來工作的基礎,那就是 DETR 架構。 DETR 代表檢測變壓器。

Transformer 是一種新型的神經層,它們正在與卷積層競爭多種計算機視覺任務。

Transformers 已經在 NLP(自然語言處理)任務中取得了不錯的成績,並且正在穩步進入計算機視覺任務。

目標檢測技術的行業現狀

在過去的幾年裡,我一直擔任機器學習工程師,專注於計算機視覺應用。透過在該領域工作以及對需要機器學習和計算機視覺知識的職位進行多次面試,我實際上注意到了行業中目標檢測的一些趨勢。

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

如果你在該行業工作,那麼肯定知道,對於同一任務,一項任務最重要的指標可能與研究中使用的指標大不相同!

在目標檢測任務的情況下,同樣適用。據我所知,在工業設定中實施目標檢測模型時,有 2 個指標是最重要的:速度和穩健性。並非總是兩者兼而有之,但總是至少存在兩者之一。

由於這些原因,YOLO(v3,v4,v5)和Faster-RCNN在業界得到了廣泛的應用。通常,當速度是第一要務時,則使用 YOLO,當魯棒性是第一要務時,則使用 Faster-RCNN。

我個人均使用過 YOLOv3、SSD 和 Faster-RCNN。

儘管許多在該行業工作的人直接使用 YOLO——我猜是因為它比較有名——但我不認為它是一種萬能的解決方案。

在推理速度方面,YOLO 和 SSD 都顯示出巨大的潛力。但在某些情況下,它們可能仍然會失敗,尤其是在行業實踐中。

我記得有一次嘗試使用帶有 InceptionV2 後端的 SSD 來執行困難的目標檢測任務。這是一專案視檢查任務,我們需要檢測大型發動機(飛機或直升機,我不記得了)內部的機械部件。無論我如何調整我的神經網路的引數,我都無法減少損失,它一直在振盪。

我之前使用過相同的架構,使用相同的主幹,來執行其他一些目標檢測任務,效果很好。因此,當我完成這項絕對更具挑戰性的任務時,SSD 失敗了。因為引擎看起來非常龐大,而且因為有這麼多零件連線在一起,而且其中許多零件看起來非常相似。即使是人眼,也很難發現我們想要檢測的特定機械部件!由此可見,註釋我們的資料集有多困難。

此時,我記得我認為這只是深度學習的極限。但在完全放棄之前,我決定嘗試不同的架構,並儘量避免使用 YOLO 和 SSD 等單級檢測器。

我選擇了 Faster-RCNN,因為它是一個兩階段的物件檢測模型。結果,這個模型效果非常好!損失函式的收斂比保齡球還平滑。因此切記:下次在處理目標檢測任務時,請在下定決心之前嘗試幾種不同的架構!

需要雲計算以提高目標檢測任務的效能

在訓練深度學習模型,尤其是大型模型時,需要一些非常好的裝置。在訓練方面,GPU 可能是深度學習機器最重要的方面。很多公司購買這些裝置,但也有不少公司選擇雲計算服務。

Google Cloud Platform (GCP)、Amazon Web Services (AWS) 和 Microsoft Azure 是一些廣泛使用的雲計算服務。

對於目標檢測和大型模型(如 Faster-RCNN),這些雲計算解決方案可能正是你正在尋找的訓練模型的方法。但是應該怎麼選擇呢?

對於許多公司來說,他們已經在上述雲提供商之一上建立了雲基礎設施,因此他們可能只想繼續使用同一提供商來保持標準化。

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

當然,還有多種方法可以訓練你的目標檢測模型,稍後我將詳細介紹一些開源工具。但是,如果你正在使用 Tensorflow(1 或 2),那麼你使用的是 Tensorflow 目標檢測 API。那麼我建議你 Google Cloud 是比較好的選擇。

由於 Tensorflow 是Google 的產品,而且目標檢測 API 也屬於Google ,Google Cloud團隊讓在 GCP 上訓練模型變得非常容易。

具體來說,用於訓練目標檢測模型,有兩個:AI Platform 和 Vertex AI。

用於執行目標檢測任務的深度學習開源工具

使用深度學習進行目標檢測,主要有三種廣泛使用的工具:

  • Tensorflow Object Detection API
  • Detectron2
  • MMDetection

如果是 Tensorflow 開發人員,那麼 Tensorflow 目標檢測 API 最適合你。 如果是 PyTorch 開發人員,那麼 Detectron2 和 MMDetection 更適合你。

如果開發者更關心選擇的多樣性,那麼 MMDetection 是最佳選擇,因為它擁有大量目標檢測深度學習模型。

總結

總而言之,以下是本文的要點:

  • 目標檢測在計算機視覺中是一項相對較舊的任務,但深度學習已經大幅提升了目標檢測任務的效能。
  • 當涉及到用於目標檢測的深度學習時,研究中推動的指標可能不一定與行業中推動的指標相同。
  • 雲計算可以成為深度學習模型訓練效能的主要助推器,請明智地選擇雲服務提供商。
  • 使用深度學習進行目標檢測有多種開源工具,主要的三個是:Tensorflow Object Detection API、Detectron2 和 MMDetection。

目標檢測技術的安防場景示例:

TSINGSEE青犀影片基於多年影片領域的技術經驗積累,在人工智慧技術+影片領域,也不斷研發,將AI檢測、智慧識別技術融合到各個影片應用場景中,如:安防監控、影片中的人臉檢測、人流量統計、危險行為(攀高、摔倒、推搡等)檢測識別等。典型的示例如EasyCVR影片融合雲服務,具有AI人臉識別、車牌識別、語音對講、雲臺控制、聲光告警、監控影片分析與資料彙總的能力。

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

分類: 科技
時間: 2021-10-13

相關文章

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習
北京百度網訊科技有限公司日前公開"高精地圖的生產方法.裝置.裝置和計算機儲存介質"專利,申請日期為2021年6月8日,申請公佈號CN113409459A. 天眼查App顯示,該專利 ...

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法
隨著電力系統的規模迅速擴大,其網路的結構趨於複雜,給理論電網損耗計算帶 來了困難:同時電網計量自動化系統的應用增強了電網的監控能力,電網公司可以較方便 地採集到用於電網損耗理論計算的各種資料.目前所使 ...

這些職業進入“最缺工”排行!AI工程師年薪是研發人員2倍;小米投資黑芝麻智慧估值達20億美元 | 美通社頭條

這些職業進入“最缺工”排行!AI工程師年薪是研發人員2倍;小米投資黑芝麻智慧估值達20億美元 | 美通社頭條
要聞摘要:智慧製造2021年調薪率6.7%,AI工程師年薪是研發人員2倍.歐萊雅北亞區2021上半年實現27.3%的強勁增長.黑芝麻智慧完成數億美元戰略輪及C輪融資.金唯智母公司Brooks Auto ...

十大值得關注的深度學習演算法
預測未來不是魔法,而是人工智慧.毋庸置疑,人工智慧的風頭正勁,每個人都在談論它,無論他們是否理解這個術語. 據研究人員和分析師稱,到 2024 年,數字助理的使用率預計有望達到 84 億.超個性化.聊 ...

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller
單核苷酸多型性(SNP)和插入/缺失(InDel)是人類基因組中最常見的兩種遺傳變異型別.在利用新一代高通量測序資料研究基因組變異和基因組功能時,SNP和InDel的檢測基本檢測專案.目前,已有多種不 ...

教師善用策略促進幼兒深度學習
專案式學習雖然是實現幼兒深度學習的有效策略,但並非所有的專案式學習都能達到深度學習的效果.在開展專案式學習的過程中,教師常常遇到以下問題:找不到專案的問題線索怎麼辦?幼兒提出了這麼多問題,如何選擇?活 ...

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐
來源:Stanford 編輯:好睏 瘦瘦 [新智元導讀]近日,斯坦福李飛飛教授等人的研究「深度進化強化學習」登上nature子刊,首次證明了「鮑德溫效應」.或許,機器人形態的設計也可以透過一波「進化」 ...

我國智慧農機的研究進展與無人農場的實踐

我國智慧農機的研究進展與無人農場的實踐
2012 年中央一號文提出,要突出農業科技創新重點,在精準農業技術等方面取得重大突破. 2017 年中央一號文提出,要實施智慧農業工程.智慧農業是未來農業的發展方向,是現代農業的高階形式.智慧農業是以 ...

通用發力車載智慧系統!推出軟體平臺Ultifi,可接入第三方應用

通用發力車載智慧系統!推出軟體平臺Ultifi,可接入第三方應用
車東西(公眾號:chedongxi) 作者 | 木米 編輯 |Juice 車東西9月30日訊息,據外媒報道,近日通用汽車公司公佈了其基於Linux打造的全新車輛軟體平臺"Ultifi&quo ...

國貨黑科技耳機來襲,商務、學習等輕鬆駕馭,AI拾音降噪首屈一指

國貨黑科技耳機來襲,商務、學習等輕鬆駕馭,AI拾音降噪首屈一指
為了考證和聽網課,去年特意入手了黃鸝智聲G100耳機.因為聽了專業耳機玩家的建議,所以當時我選擇的是帶有前置麥克風的有線頭戴耳機.對於學習和聽網課來說,這款耳機使用起來還是非常方便和舒適,尤其是它那雙 ...

百度飛槳:紮根產業場景,降低AI應用門檻

百度飛槳:紮根產業場景,降低AI應用門檻
中國的數字化程序已經從消費網際網路為主導,轉向產業網際網路. 一個共識是,大資料會成為像水電一樣的基礎設施,而AI等技術則等同於工業革命的蒸汽機.電力,是推動未來產業革命的核心動力.以AI為代表的新一 ...

自拍眼睛就能測新冠!這項AI技術國內免費開放,3秒獲診斷結果

自拍眼睛就能測新冠!這項AI技術國內免費開放,3秒獲診斷結果
智東西(公眾號:zhidxcom) 作者 | 心緣 編輯 | 漠影 用手機拍張眼部照片,就能秒知是否感染新冠. 這是復旦大學大資料學院人體感知實驗室與國內外多家機構聯合研發的COVID-19 EYE ...

智慧經濟時代:AI助力產業升級

智慧經濟時代:AI助力產業升級
"人躺著休息,車平穩行駛",這或許是人們對自動駕駛的最初構想.而在人工智慧大潮下,這一構想正在變成現實. 日前,在剛剛結束的百度世界大會上,百度掌舵人李彥宏親身體驗了一把無人駕駛的 ...

在未來,AI智慧之所以能代替人們,是因為人們做了重複性的事

在未來,AI智慧之所以能代替人們,是因為人們做了重複性的事
在科研上我們都是有一個大目標的,比如進行改進.探究,這些大目標可以分解成若干小目標一個一個攻克,最終完成大目標.整個過程相當於解一個超大型的方程,這正是計算機擅長的.有一個腦洞,就是<超驗駭客& ...

Unity AI 2021實習生透過計算機視覺看未來

Unity AI 2021實習生透過計算機視覺看未來
AI@Unity正在致力於機器人.計算機視覺和機器學習領域的深入研究和產品開發.而Unity為暑期實習生們提供的人工智慧專案則更加具有真正的產品影響力. Unity計算機視覺團隊開發的感知包能夠幫助使 ...

攜手共築 數智未來 大華股份AI取得新突破

攜手共築 數智未來 大華股份AI取得新突破
近日,大華股份基於深度學習演算法的目標檢測技術,重新整理了MSCOCO(Microsoft COCO: Common Objects in Context)資料集中通用目標檢測任務的全球最好成績,關鍵 ...

RISC-V強攻AI晶片市場

RISC-V強攻AI晶片市場
來源:內容來自「The Next Platform」,謝謝. 越來越多的大大小小的供應商正在努力為人工智慧工作負載製造處理器.人工智慧和機器學習是自動化和分析的關鍵推動因素,它們在跨越本地資料中心.公 ...

墊底AI四小龍,雲從科技:一個偽人工智慧國家隊的謊言與真相

墊底AI四小龍,雲從科技:一個偽人工智慧國家隊的謊言與真相
在歷經炒概念.搶金主兩個階段後,中國AI四小龍已經進入爭奪國內人工智慧第一股的新階段. 2019年11月以來,曠視科技.依圖科技.雲從科技.商湯科技相繼提交了招股書.來得早不如來得巧,排在第三位提交I ...

華為雲釋出盤古藥物分子大模型,開啟AI藥物研發新模式

華為雲釋出盤古藥物分子大模型,開啟AI藥物研發新模式
[中國,深圳,2021年9月23日]今日,主題為"深耕數字化"的華為全聯接2021隆重開幕.華為高階副總裁.華為雲CEO.消費者雲服務總裁張平安發表"深耕數字化,一切皆服 ...