允中 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
一千人眼中有一千個哈姆雷特,從阿蘭·圖靈(Alan Turing)博士第一次提問 “機器會思考嗎?”並設計出圖靈試驗算起,70年來AI領域湧現的傑出人物燦若繁星,像推動最近這一輪AI復興的深度學習三巨頭Bengio、Hinton、LeCun,以及創造了AlphaGo的Demis Hassabis等。幾代學者接力棒般地努力,將人工智慧從科學猜想一步步推向現實,呈現給大眾。
在MEET2022智慧未來大會上,京東的何曉冬來到了活動現場,講述了京東在技術方面的進展,以及在各產業的應用。
作為一家新型實體企業,京東自2017年初全面向技術轉型以來,已在技術上累計投入近750億元,展示了京東對於技術和人才的重視,並將內部沉澱和打磨多年的技術全面向社會開放,幫助外部合作伙伴實現數字化升級。
此外,依託豐富的場景和在智慧供應鏈方面的優勢,京東也吸引了眾多優秀的科學家加盟。
何曉冬便是其一。
他在自然語言處理、多模態智慧等領域深耕多年,有著眾多研究成果,並將這些成果大規模的應用在京東和產業界。
活動結束後,我們還聊了聊他經歷的AI復興往事。
最早一批投身深度學習的AI科學家
何曉冬本科畢業於清華大學,碩士畢業於中國科學院,後赴美國密蘇里大學哥倫比亞分校學習,獲得博士學位後加入微軟。從2012年至今,他還在位於西雅圖的華盛頓大學電機與計算機系兼任教授、博士生導師。
在加入京東前,何曉冬就職於微軟雷德蒙研究院(MSR Redmond),任首席研究員(Principal Researcher)及深度學習技術中心(DLTC)負責人。雷德蒙研究院是微軟全球八大研究院之首,位於微軟總部。
在這裡,不僅有海量高影響力學術論文誕生,還有眾多學術研究成果被轉化到微軟產品中去。比如微軟在隱私保護方面的機器學習演算法、DNA儲存資料系統的開發,都是雷德蒙研究院的成果。
此前舉辦多年的微軟研究院技術節(TechFest)也是在這裡舉辦,對微軟乃至整個業界都有著舉足輕重的影響。
在學術界這些年,何曉冬提出多個基礎方法和經典模型,推動和啟發了眾多國內外科技創新。
在自然語言處理、語言與視覺多模態智慧等領域,他發表論文200餘篇,谷歌學術引用3萬餘次;其中前10篇代表作的引用超過15000次,並多次獲得ACL傑出論文獎、IEEE SPS最佳論文獎等獎項。
比如在2014年,他與深度學習三巨頭之一Yoshua Bengio等人給IEEE TASLP投稿的《Using RNN for Slot Filling in Spoken Language Understanding》,提出了基於深度迴圈神經網路的口語理解模型,為口語理解領域帶來突破。
六年之後,該論文獲得2020年度IEEE 訊號處理協會 (IEEE SPS)最佳論文獎。跟一般頂會的最佳論文獎不同,這個獎是從過去6年裡發表於IEEE SPS的所有論文裡評選,相當於經過了時間的檢驗。
何曉冬還為此感慨道,AI領域發展很快,這個工作萌發idea的時候,這些作者裡還只有一位IEEE Fellow,獲獎的時候,作者群裡已經7位Fellow加一個圖靈獎了。
、又比如2018年,何曉冬與沈向洋、李笛等人在中國工程院刊FITEE發表論文《From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots》,深度探討了構建先進人機對話系統的設計原則,獲得業界廣泛關注,並獲得2018年度優秀論文獎。
基於其對自然語言理解和語言與視覺多模態資訊處理的貢獻,2018年底何曉冬當選IEEE Fellow。
此外,他還曾擔任IEEE西雅圖分會主席及多個頂級學術期刊編委。
在今年清華-中國工程院知識智慧聯合研究中心推出的AI 2000人工智慧全球最具影響力學者榜單中,何曉冬同時入選自然語言處理、語音識別、資訊檢索與推薦3個領域。在這個榜單裡,跨3個及以上領域入選的學者全球只有61位。
二十載學術生涯中,何曉冬的研究貫穿了語音識別、語言理解、影象與語言多模態資訊處理等領域。也正好在這一時期,深度學習及人工智慧技術迎來新一輪爆發。
深度學習爆發的見證者、參與者
正如喬布斯在斯坦福大學那場著名的演講中所言,人生中很多事件其間存在巧妙關聯,但要在多年後回望時才會發現。
這一點在何曉冬身上也有印證。
站在當下這個節點上,何曉冬回望走過的路,何曉冬對我們講述了自己親歷的深度學習發展中的幾個片刻。
關於這個故事,還要從2006年說起。
當年,深度學習三巨頭之一Geoffrey Hinton在頂刊Science上發表了一篇論文,名為《Reducing the Dimensionality of Data with Neural Networks》。
雖然當時人們認為這篇論文並不好懂,但現在回頭來看,這篇論文可以稱得上是這次深度學習浪潮的起點。
而彼時何曉冬考慮的,卻是另外一個問題:需要什麼樣的演算法才能在像大規模語音識別、機器翻譯這類硬核的AI任務上產生真正的突破?
在他看來,很多演算法、理論確實夠前沿新穎,但當真的用到實際問題中時,效果卻差強人意。
之後在2008年的機器學習頂會NeurIPS(當時叫做NIPS)上,他和當時微軟的同事鄧立便舉辦了一場語音語言研討會(NIPS Workshop on Speech and Language: Learning-based Methods and Systems),同時也邀請Hinton來做報告。
之後鄧立還邀請Hinton去微軟“做客”,期望將他提出的最新理論,拓展應用到公認很難的大規模詞表語音識別任務中去。
而就是這一次合作,讓大規模語音識別這件事在2010年,第一次出現了非常明顯的進步。
具體而言,深度學習將大詞表語音識別效能突破性提升了20%,可以說是開啟了後來一系列人工智慧硬核任務上的突破。
以Switchboard資料集上的語音識別效能測試為例,在此之前,基本錯誤率都高到沒法在實際場景中大規模用起來。
而從2010年開始,大詞表語音識別的錯誤率每年都在迅速下降。
到了2017年,在Switchboard上的錯誤率被降低至5.1%,這也是首次在這個資料集上AI達到了人類職業速記員的水平。
但實際上,2010年那次深度學習在語音識別上取得突破的影響,遠不止於此。
重點是它讓大家對深度學習、神經網路看法發生了改觀——
“原來這是條可行的路”。
於是,在這扇大門敞開之際,深度學習領域與之相關的各項研究都開始遍地開花。
比如影象識別方面,以ImageNet專案為例,在2012年Hinton和他的學生研發的深度學習模型將物體識別的錯誤率降低了1/3。並且隨後每一年識別錯誤率都在持續大幅下降。
在2015年,深度學習模型在ImageNet資料集上把識別錯誤率降到了3.57%,首次超越了人類的5%錯誤率的水平。
而且不單是對語音和影象的識別,理想中的AI應該是能像人一樣去理解語言背後更深層的語義,就是說AI需要從感知智慧進化到認知智慧。
在此理念之下,何曉冬等人投身其中,探索從自然語言中提取出抽象的語義並將它投影到一個語義空間,以此來幫助搜尋、推薦、分類、問答等實際應用。
具體而言,他們在2013年提出了深度結構化語義模型DSSM(Deep Structured Semantic Models),將多樣化的自然語言所表達的含義,表示成為一個多維度連續語義空間中的向量。
值得一提的是,該模型產生的影響可謂深遠,不僅僅在學術界被引用過千次,在工業界也極具適應性。
時至今日,幾乎所有做搜尋推薦場景的大廠仍在使用DSSM及其衍生模型,其影響力度可見一斑。
除了語言之外,在2015年的一個工作中,他們將知識也用向量、矩陣等方式來表徵並投影到高維連續語義空間中。
更進一步,語音、語義或影象上的突破還只是單一領域的智慧,而人類的智慧更為複雜豐富。
比如就像我們人類看下面這張圖一樣,很自然就能夠get到圖片中人物的活動,並用語言去描述出來,而不只是簡單的檢測出圖中的人和物。
同樣在2015年,在CVPR(計算機視覺頂會)上深度學習巨頭Yan LeCun 等人召集了一場深度視覺研討會(DeepVision Workshop),邀請Yoshua Bengio等就“視覺的未來”各抒己見。
會上,何曉冬在報告中提出了一個觀點,便是語言-視覺深度多模態語義模型(DMSM),也就是AI在描述一張圖的時候,是否能夠在語義層面上達到一個等價的匹配。
換句話說,就是我們常說的“看圖說話”,文字描述出來的話和圖片的內容在語義上要是一致的。
而何曉冬他們提出的DMSM模型就是一個具體實現的演算法,能夠把影象和文字都表示成為同一個跨模態語義空間內的向量。
而後在這個空間中進行跨模態語義匹配計算,從而幫助生成最匹配影象內容的文字表述。
例如在這個模型下,AI在看到下面的這張圖片時,便可在識別和理解影象蘊含的豐富語義,並生成準確的語言描述。
△何曉冬等在CVPR2015發表的關於視覺和語言多模態影象描述的論文
而且不僅只是語言、影象,何曉冬和他的同事後來又將知識融入到了多模態模型中。
這樣做的效果,便是AI在“看”到有具體人物、地標的圖片時,就不僅僅會將其描述為“一個運動員”這樣的籠統的資訊。
而是會把描述的語言變得更加細緻,例如AI就會把圖片中的具體人物“納德拉”都說出來。
2016年,微軟CEO納德拉在微軟Build大會中便展示了這項技術。
△Business Insider媒體報道CaptionBot
何曉冬帶領團隊開發的這款名為CaptionBot的AI 應用,精準描述了圖片中納德拉的言行舉止,還能夠描述人物情緒。
一時間,跨語言、視覺以及知識的多模態技術迅速實用化,該應用也迅速走進了大眾的視野當中。
深度學習崛起和發展過程中有種種“巧合”,但其實更有賴於很多技術人對技術執著的 “信念”。何曉冬自嘲說,感覺他就像電影《阿甘正傳》裡的阿甘一樣,很幸運的見證了這一輪AI復興浪潮的關鍵節點,還有幸能在其中做了一點貢獻,也像是經歷了一個技術人的“奇幻之旅。”
回國,加盟京東
時間撥轉到2018年,彼時在微軟雷蒙德研究院已經工作十餘載的何曉冬,選擇回到國內,並加盟京東。
這一決定在外界看來或許有些突然,但於其本人而言,或許更是一種必然。
就像第一臺通用計算機剛剛被髮明出來時一樣,最大的問題是如何讓它去做我們想讓它做的事,發揮出它的潛力和價值。
作為深度學習新一輪浪潮的親歷者與參與者,何曉冬深感應用之於AI的意義。
他以研究多年的智慧客服應用舉例說明。客服是智慧人機對話與互動技術的重要落地場景,讓AI和人溝通就成為了必然的挑戰。
而在和人類溝通的過程中,AI不僅要聽懂人類說的話或者看懂人類輸入的文字,還要理解人的深層意圖去組織語言,甚至還是一系列的博弈與決策(比如該做什麼、該怎麼回覆、該詢問補充資訊還是立刻回答、該採取什麼互動策略等等)……這一切使得實用場景成了最好的訓練場。
何曉冬針對AI的進展做了一個判斷,當下AI技術的三要素已經從(靜態的)資料、(單一任務的)演算法、算力轉化為(互動行為的)場景、(多工協同的)系統和算力新三要素。
根據複雜的應用中發現的問題反過來推動基礎技術的發展,也成為如今AI發展的一種新趨勢。
由此,何曉冬在2018年更緊密的擁抱場景、走向京東。
加盟京東後,何曉冬一方面在北京、成都、矽谷等地組建語音語義與智慧人機互動技術實驗室,聚焦多模態人機對話等前沿課題,另一方面組建智慧客服產品部門推動實驗室產出的前沿技術落地到大規模產業應用。
比如他和團隊研發了產業界第一個大規模商用的情感智慧客服系統—言犀,涵蓋客戶服務、營銷導購、流程自動化等客戶全生命週期管理與服務的智慧化解決方案。
我們日常開啟京東APP和智慧客服溝通時,用到的就是這一系統。
它可以貫穿售前、售中、售後全線場景,其最大的特點就是可以在多輪對話中識別到使用者的情緒,從而調整自己的應對策略,情緒判斷準確率可以逼近到90%。在用上這套情緒評估系統後,京東平臺上,客戶的滿意度帶來了明顯的提升。
更人性化的是,它還能識別出客戶的極端情緒。比如有人詢問一次吃100顆安眠藥會死嗎?智慧客服系統就會發出預警,並聯系當地公安、社群志願者予以介入干預挽救生命。
不只是文字內容,顧客發來的照片它也能“看懂”,而且還能用圖片+文字的形式回覆顧客,好像真人一般。
當然,遇到解決不了的問題時,智慧客服也會及時切換人工客服,保障使用者問題能夠快速被解決。
目前,它已在京東平臺上服務超過5.5億客戶。而且,這套言犀系統能做到的,還不止於此。
它還能對外提供解決方案。
在政務行業,言犀為大同12345提供政務熱線解決方案,目前接通率提升到 100%,事項辦結率提升到97.9%,讓廣大市民 “打得進,聽得懂,辦得快”。
在金融行業,言犀為江南農商銀行打造了的VTM數字員工,是全國首個能獨立全程辦理銀行真實交易的數字人,實現了從傳統的諮詢、查詢、導覽到業務辦理的突破。
在製造行業,言犀為中聯重科打造了泵送機械AI專家診斷系統,每年可創造超過230萬元的經濟效益,節省了大量故障排查成本。
言犀也為更多人帶來了實實在在的價值與便利。對於在山西大同12345工作的於怡然來說,在智慧化改造之前,接聽熱線全靠人工,矛盾突出的時候,總是接到市民的投訴,為什麼老是佔線?為什麼回覆很慢……上線了言犀之後,熱線接通率有了大幅提升,更關鍵是言犀推薦的答案與市民提問匹配度非常高,交流更順暢,市民也就更加滿意了。
再比如對於母嬰品牌Babycare的客服人員李豔來說,言犀的出現讓她可以將精力更多傾注在解決使用者個性化、專業化問題上。同時,有了智慧客服系統輔助,即使是在大促期間,也能讓身為寶媽的她早點回家,陪伴自己寶寶成長。
家住在天津河西區翁奶奶,每天早上9點,都會準時接到言犀的電話,用1分鐘左右的時間詳細地瞭解翁奶奶的身體健康以及生活情況等。
在養老產業,言犀使用擬人化的智慧外呼系統,每天上午對全區獨居老人展開自動呼叫,若兩次撥打電話無人接聽,系統就會立即通知家屬或者社群網格員上門,以防範獨居老人遇到突發疾病等問題,目前可滿足區域內20萬老人的養老服務需求。
何曉冬表示,京東智慧客服-言犀能夠如此強大,不僅是依靠向金牌服務人員學習,更是基於平臺本身的海量應用場景訓練。
智慧人機對話與互動系統代表的是新一代融合性的智慧,它是基於“活的”互動場景去迭代和發展,而京東複雜的業務場景每天有數百萬的諮詢量、訊息量達千萬級,基於此我們的模型才有機會迅速發展。
而透過和不同的使用者不斷溝通、測試最佳應答方式,京東的智慧客服系統每天可完成百萬乃至千萬級的迭代量。
在阿蘭·圖靈博士的時代,圖靈實驗還只是一個頭腦實驗,做一次真實的圖靈實驗都是個奢望,而現在,單在今年11.11一天京東的智慧客服系統就跟超過1000萬用戶進行了交流互動,相當於做了1000萬次圖靈測試,而每一次測試,都會為AI帶來點滴新的進步。
「這是京東在AI技術發展上最大的“護城河”」,何曉冬說。
應用之外,京東AI團隊也已在ACL、NeurIPS、AAAI等頂級學術會議上發表了超過130篇論文,在16項世界級AI能力賽事獲得冠軍。
這也與近年來行業趨勢相吻合。
隨著AI不斷深入和落地,有業務、有場景的公司正在展示出更大的智慧未來前景。一方面是對前沿技術的迅速應用,另一方面則是在落地應用和資料迭代中,創造出更強的模型和研究成果。
對於京東這樣的平臺型公司來說,科研和技術背景出身的科學家,也就適得其所、相得益彰,真正能做到技術在產業落地,讓技術真正走入千家萬戶,潛移默化地為每個人帶來更美好的生活。
於是即便向來低調,在時代趨勢和浪潮中,有抱負的科學家,也會被越來越推至臺前。
趨勢已經開始,趨勢還會繼續。
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態