金錢買不到幸福,它絕對不能買到你的愛情。還有傳言說,錢也買不到好的標註資料,這些資料用以訓練特定的AI應用。——來自一個被困擾的人工智慧開發者。
有人在蘋果花了數億美元收集標籤資料,但依然沒有好的結果。人們意識到AI非常強大。但為了實現它,必須獲得大量的訓練資料。
看到這一需求,許多專業標註公司誕生了。例如Datasaur,這是一個自動化資料標註的軟體。當然,資料標註首先需要以人工的方式開始,特別是在人工智慧專案的開始階段,到了專案的中期或末期,機器學習本身可以用於自動標記資料,也可以生成合成資料。
Datasaur軟體的主要目標是簡化人工資料標註的操作,並引導他們以最低的成本建立更高質量的訓練資料。由於它的目標是那些需要整天標記資料的高階使用者,因此建立了功能鍵來加速標註過程,以及適合專用資料標註系統的其他功能。
不過在這個過程中,Datasaur也有了其他幾個目標,包括消除偏見。還提供了專案管理能力,以清楚地闡明標籤指南,以確保隨著時間的推移,標籤標準繼續得到保持。
資料標註的主觀性是使這門學科充滿陷阱的原因之一。
例如,想出一種方法,自動給文章貼上適合或不適合家庭的標籤。通常可以參考電影分級制度,類似PG、PG13、R級。自然認為這將是一個非常簡單的任務。然後事實證明,科技公司認為合適的做法與電影行業認為合適的做法有很大不同。還有很多灰色地帶的例項,對於什麼是合適的,什麼是不合適的,不同的社會觀點將會非常不同。
解決這類問題沒有捷徑可走。但是,有一些方法可以幫助公司將這些業務流程自動化,包括提供一個用於回答這些資料標註問題的決策譜系。這就是建立Datasaur軟體的原因。
你不會讓你的團隊為你的設計師建立一個Photoshop。只要買現成的Photoshop就行了。當你只需要做資料標註,我們也可以找一家這樣專業的公司。
起初,許多客戶認為計算機視覺是最熱門的AI技術。但最近,NLP用例非常熱門,特別是那些依賴於大型模型的用例,如BERT和GPT-3。因此Datasaur產品開始吸引注意力,每週被用於給100萬條資料貼標籤,包含Netflix、Zoom和Heroku等知名公司都在使用。
Datasaur也被專業資料標註機構使用,例如iMerit。在世界各地擁有5000名員工,iMerit已成長為資料標籤行業的強大力量。該公司擁有100個客戶,其中包括許多家喻戶曉的品牌,這些客戶利用其資料標註網路,讓深度學習模型與高質量的標註資料保持一致。
資料標籤的主觀性使得它不是單純的一項交易。
通常情況下,需要坐下來,弄清楚資料在哪裡,需要什麼。它不僅僅是工具、人員或過程。這是三者的結合。
上下文對於資料標註過程絕對是至關重要的。這大概是因為機器對上下文的理解能力很差。也可能是因為AI用例在不斷變化。不管是什麼原因,這種需求是顯而易見的。
分享一個卡車上施工工人的例子,可以證明上下文對於開發高質量的培訓資料是多麼重要。想象一下,有一個工人坐在卡車上,每到一個維修路段,就要下車幹活,然後又回到卡車上。所以資料標籤的問題是:工人是行人嗎?他是卡車的一部分嗎?還是說他是第三種人?
如果你在計算車輛,你就不會在意工人上下車。你只會對工程車感興趣;但如果你試圖操縱其他東西(比如自動駕駛或交通流量控制),避免撞到垃圾工,垃圾工的動作將會引起你極大的興趣;如果你在尋找可疑的行為,你會想把垃圾工排除在一系列類似的行為之外。
但很明顯,工人有不同的存在狀態,取決於人工智慧應用的視角。對於資料標註來說,證明一個事實:在不同的時間,一條資料可以有不同的標註。有的時候,沒有單一的答案。
資料標註過程的細緻性對於提高資料質量至關重要,這直接影響機器學習模型的預測推理質量。資料可以讓預測準確率達到60%到70%,也可以讓預測準確率達到95%。
根據用例的不同,準確性是至關重要的。假如正在構建一個模型從影片中來識別偷東西的行為,一個錯誤的否定(沒有發現盜竊行為)和一個錯誤的肯定(指控無辜的顧客)之間後果有很大的區別。