編輯:好睏 袁榭
【新智元導讀】當代人工智慧領域最權威的學者之一吳恩達,於2022年2月8日晨在自己推特上宣佈新冠檢測結果陽性,不過症狀輕微。
北京時間,2022年2月8日早上6點,吳恩達新冠病毒檢測呈陽性。
吳恩達表示,由於自己已經接種了疫苗和加強針,目前的症狀和與輕度的流感差不多。感謝全世界從事疫苗工作的人們。
大年初一的時候,他還發推祝大家虎年快樂。
還有不到3個月就要過46歲生日了,希望大佬好好休息,早日康復。
成就一覽
吳恩達無疑是當代人工智慧和機器學習領域最權威的學者之一,同時在商業上也頗有建樹。
吳恩達是斯坦福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。
吳恩達的理想是讓世界上每個人能夠接受高質量的、免費的教育。於是便與達芙妮·科勒 (機器學習界的一姐和大牛,《Probabilistic Graphical Models: Principles and Techniques》的作者)一起建立了線上教育平臺Coursera。
吳恩達於1976年出生於英國倫敦。他的父母都是來自香港的移民。在成長過程中,他在香港和新加坡度過了一段時間,後來於1992年從新加坡萊佛士書院畢業。
1997年,他獲得了賓夕法尼亞州匹茲堡卡尼基美隆大學班級頂尖的計算機科學、統計學和經濟學三重專業大學學位。1996年至1998年間,他在AT&T貝爾實驗室進行了強化學習,模型選擇和特徵選擇的研究。
1998年,吳恩達在馬薩諸塞州劍橋的麻省理工學院獲得碩士學位。在麻省理工學院,他為網路上的研究論文建立了第一個公開可用,自動索引的網路搜尋引擎(它是CiteSeer/ResearchIndex的前身,但專注於機器學習)。
趣味哏圖:「當你看到以下片頭標時,就會知道影視產品很棒:20世紀佛克斯、派拉蒙、華納兄弟、吳恩達微笑」
2011年,吳恩達在谷歌建立了谷歌大腦專案,以透過分散式叢集計算器開發超大規模的人工神經網路。
2014年5月16日,吳恩達加入百度,負責「百度大腦」計劃,並擔任百度公司首席科學家。2017年3月20日,吳恩達宣佈從百度辭職。
2017年12月,吳恩達宣佈成立人工智慧公司Landing.ai,擔任公司的執行長。
趣味哏圖:「AI的文藝形象是終結者,真實形象是吳恩達公開課」
作為教師,他保持一項紀錄:在2013-1014年斯坦福大學秋季學期的「機器學習」課程中,這門由吳恩達主講的課程有超過800名學生選修。這曾是斯坦福歷史上最多人同時選修的課程。
沒有任何教室可以容納,所以很多人都是在家看課堂錄影。不過這門計算機專業的研究生課程比Coursera上的同名公開課要難很多,用他自己的話來說就是“這(和Coursera上的相比)可以說是兩門課”。
吳教授公開課金句:「聽不懂先不要怕」
他在斯坦福公開課與Coursera裡主講機器學習,效果極佳,在業界和普羅大眾中都非常受歡迎。
趣味哏圖:「女友:你看泰坦尼克都不哭!難以置信!你究竟有沒有感情!你哭過沒有!AI學子:有啊,吳恩達公開課結尾出手寫感謝字幕的時候。」
吳恩達在Coursera上的機器學習課程,平均得分4.9分。Coursera上的課程評分滿分5分,大部分公開課處於4-4.5分之間,能做到4.9分的課程很少,而這門課程有近五萬人給出評分。按Freecodecamp的統計,這是機器學習線上課程中最受歡迎的一門。
吳恩達的公開課程中高數內容相對不多,在同類公開課中比較親善大眾。他解釋過原因:「這門課沒有使用過多數學的原因就是考慮到其受眾廣泛,因此用直覺式的解釋讓大家有信心繼續堅持學習。」
趣味哏圖:「吳恩達公開課,默默為AI新丁擋下了微積分、線代、統計、機率論這些高數火力,讓學子們得以安眠。」
80%的資料+20%的模型=更好的機器學習
機器學習的進步是模型帶來的還是資料帶來的,這可能是一個世紀辯題。
吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在資料準備上,確保資料質量是最重要的工作。
「AI = Data + Code」
出現問題時,大部分團隊會本能地嘗試改進程式碼。但是對於許多實際應用而言,集中精力改善資料會更有效。
吳恩達認為,如果更多地強調以資料為中心而不是以模型為中心,那麼機器學習將快速發展。
我們都知道Google的BERT,OpenAI的GPT-3。但是,這些神奇的模型僅解決了業務問題的20%。而剩下80%就是資料的質量。
MLOps是什麼?
MLOps,即Machine Learning和Operations的組合,是ModelOps的子集。
它是資料科學家與操作專業人員之間進行協作和交流以幫助管理機器學習任務生命週期的一種實踐。
與DevOps或DataOps方法類似,MLOps希望提高自動化程度並提高生產ML的質量,同時還要關注業務和法規要求。
比如在缺少資料的應用場景中進行部署AI時,例如農業場景,你不能指望自己有一百萬臺拖拉機為自己收集資料。
基於MLOps,吳恩達也提出幾點建議:
- MLOps的最重要任務是提供高質量資料。
- 標籤的一致性也很重要。檢驗標籤是否有自己所管轄的明確界限,即使標籤的定義是好的,缺乏一致性也會導致模型效果不佳。
- 系統地改善baseline模型上的資料質量要比追求具有低質量資料的最新模型要好。
- 如果訓練期間出現錯誤,那麼應當採取以資料為中心的方法。
- 如果以資料為中心,對於較小的資料集(<10,000個樣本),則資料容量上存在很大的改進空間。
- 當使用較小的資料集時,提高資料質量的工具和服務至關重要。
十年前,社群開始接受深度學習,那時還不知道需要多少萬份新穎的發明、多少研究論文,才能達到我們現今的發展地位。
但昔日的不解早已煙消雲散。
「人們一開始質疑TensorFlow和其它奠定基礎的框架。而如今,我認為,在考慮MLOps和以資料為中心的人工智慧時,隨時都有數以萬計的想法有待發明。」
歸根結底,任何機器學習的企業都必須關心客戶對產品的需求,所有事情都與業務有關。
在構建MLOps團隊時,吳恩達推薦了一條可靠的原則:
要求團隊進行長期、認真地審視,確保在整個產品生命週期中,始終能產出高質量的資料。
「即使MLOps一詞沒有出現在職位描述中,但我認為,MLOps仍然是現在人們需要學習的一項重要技能。」
參考資料:
https://twitter.com/AndrewYNg/status/1490808144267673601