科學匠人｜秦濤：以獨立、深度的視角看世界做有意義、創新的研究

編者按：NeurIPS 2021大會剛剛結束。在今年的大會上，微軟亞洲研究院共有22篇論文入選，而其中的8篇都有微軟亞洲研究院首席研究員秦濤的參與。自加入微軟亞洲研究院以來，秦濤已在 NeurIPS、ICML、ICLR、IJCAI、AAAI、CVRP 等業界頂級期刊、會議上發表了100餘篇論文，他所帶領的團隊也在2018年將中-英機器翻譯提升至人類專業水平，在2019年國際機器翻譯大賽上獲得8項冠軍，並且還開發了迄今為止最強大的麻將 AI 系統 Suphx，所研發的語音合成技術被廣泛應用於微軟 Azure 認知服務、Windows 等多個微軟核心產品和服務中。如何持續不斷地產出高質量的科研創新成果？或許你可以從秦濤的科研經歷中獲得一份“錦囊”。

在 NeurIPS 2021大會上，微軟亞洲研究院首席研究員秦濤博士參與的論文有8篇被收錄，成為本屆大會收錄論文數最高的研究員之一。其中一篇論文重新審視了深度學習中廣泛使用的 Dropout 演算法，針對其訓練和測試階段的不一致性提出了改進演算法 R-Drop；另一篇擯棄了傳統生成式建模中由一個過於簡化的邊緣（先驗）分佈加一個條件分佈來確定兩個隨機變數聯合分佈的做法，提出了由兩個條件分佈來確定聯合分佈的理論，從而避免了使用因過於簡化而與實際不符的邊緣分佈，並基於此理論提出了一個全新的生成式建模模式 CyGen。R-Drop 的論文體現了科研人員對已有技術的反思與獨立思考能力，而 CyGen 的文章則更具原創性，反映了科研思維的深度。秦濤說，“做研究時，碰到別人習以為常的事情，我們需要思考那樣做是否有道理，是否可以改進，從而培養自己獨立思考、深度思考的習慣。”

微軟亞洲研究院首席研究員秦濤

事實上，不僅是在今年的 NeurIPS 大會上秦濤和團隊“盆缽滿盈”，自加入微軟亞洲研究院以來，秦濤已在頂級期刊、會議上發表了100餘篇論文。同時，他所帶領的團隊近年來也在學術界、產業界屢獲佳績，不少科研成果已被廣泛應用。

究竟是怎樣的“魔力”可以讓秦濤在研究中另闢蹊徑，不斷提出新問題，應對新挑戰，創造無限可能？

加入微軟亞洲研究院是不二選擇

2008年，秦濤正式加入了微軟亞洲研究院，但在此之前他已經是這裡的一名“老員工”了。2003年，還在讀碩士的秦濤來到微軟亞洲研究院實習，一直到博士畢業。期間，秦濤還曾作為優秀實習生受邀到比爾·蓋茨家參加活動。“微軟亞洲研究院是當時國內最好的計算機科學研究機構。五年的實習時間已經讓我體會到了研究院自由的研究環境和學術氛圍。”秦濤說，“這裡擁有眾多優秀的研究人員和實習生，與其單打獨鬥，研究院更鼓勵我們共同合作創新。所以畢業後，我沒有考慮其他選擇，毫不猶豫地加入了微軟亞洲研究院。”

2007年微軟亞洲研究院優秀實習生合影（右一：秦濤）

從實習生到正式的研究員，秦濤的研究方向發生了多次轉換。實習初期秦濤主要從事影象檢索方面的研究，利用 SVM、Boosting 或決策樹等技術處理人工設計特徵（比如直方圖、紋理分佈、SIFT 等）。2005年，微軟意識到了網際網路搜尋的發展前景，開始佈局搜尋引擎業務。於是，秦濤和團隊開始集中精力於網際網路搜尋的研究。

全情投入很快得到了回報，在同年資訊檢索領域的頂級學術大會 SIGIR 收錄的75篇論文中，有15篇來自微軟亞洲研究院，佔比20%。“我們每個人都穿著同樣的T恤，合影時不斷引來大家的關注和稱讚，‘你們（微軟亞洲研究院）來了這麼多人呀‘”，回憶起當年參會的場景，秦濤依舊難掩興奮之情。這次經歷讓秦濤倍感榮耀，也讓他感受到了微軟亞洲研究院在全球計算機科研界的實力與位置。

2005年，秦濤參加 SIGIR 大會

網際網路搜尋工作的持續進步，以及與產品團隊的深入合作，讓秦濤又將目光對準了網際網路廣告的研究。不同於網際網路搜尋中只對網頁進行正常排序，網際網路廣告則需要將優質的廣告和使用者的查詢詞按相關度排序，以提升使用者的體驗。於是秦濤和同事們開始著手於廣告點選率預測的相關研究，並拓展到廣告拍賣機制的設計和改進，以實現必應（Bing）廣告業務的最佳化。其實無論是圖文檢索、網際網路搜尋，還是廣告排序，都是機器學習技術的應用，這些積累也讓秦濤及團隊看到了深度學習、深度神經網路等技術的潛力，為後來秦濤團隊在機器翻譯、語音合成、語音識別、強化學習等領域的突破性創新奠定了基礎。

創新對偶學習，帶來更多可能性

隨著對機器學習技術的深入研究，秦濤團隊發現很多實際應用中的機器學習任務的輸入輸出互為對偶，比如機器翻譯中的中翻英任務和英翻中任務，語音處理中的語音合成任務（從文字到語音）和語音識別任務（從語音到文字），圖文處理中的“看圖說話”任務（從影象生成文字）和基於文字的影象生成任務。利用這種機器學習任務之間輸入輸出的對偶屬性可以對無標註資料進行學習，提升機器學習演算法特別是深度學習演算法的效能。

這就是由秦濤團隊2016年提出，今天已為業界所熟知的機器學習新正規化——對偶學習。對偶學習思想最關鍵的地方在於，給定一個原始任務模型，它的對偶任務模型可以給其提供反饋；同樣的，給定一個對偶任務的模型，其原始任務模型也可以給該對偶任務的模型提供反饋，從而這兩個互為對偶的任務可以相互提供反饋，相互學習，共同提高。

最初，對偶學習只為解決機器翻譯任務，後來逐漸應用於更廣泛的領域，包括機器問答、語音識別、語音合成，甚至是影象風格的轉換，比如將影象從梵高風格轉換成其他畫家的風格，將山水畫轉變為油畫，等等。對偶學習還可以用於智慧程式碼生成任務，同時提高程式碼註釋與程式碼生成的效能。

值得一提的是，得益於對偶學習，秦濤團隊助力微軟機器翻譯在2018年中-英機器翻譯中達到了媲美人類專業翻譯的水平，並在2019年的機器翻譯比賽中獲得了8項機器翻譯冠軍。2020年，秦濤和同事們還將對偶學習編寫成書，讓更多人瞭解和使用這一技術。

《Dual Learning（對偶學習）》

對偶學習從技術上講並不是特別困難，而在於換個角度看問題，把具有對偶屬性的兩個任務放在一起聯合學習，利用兩個模型的輸入輸出形成反饋閉環，這不同於傳統的單任務學習正規化，也不同於近年來的多工學習。秦濤總結到，“更重要的是創新性思維，能否從一個全新的視角看問題，做到這一點就不難發現一片新的天地。”

做有意義的研究：小語種機器翻譯

讓秦濤擁有成就感的研究專案不少，但其中有一項工作意義尤為特殊——低資源機器翻譯。就在前不久，微軟翻譯突破了百種語言和方言大關。“要突破100種語言的契機和靈感來源於奧運會，”秦濤介紹道，“我們發現2020年東京奧運會的官方網站上只提供了7種語言支援，而參賽的國家卻有200多個。若要在語言翻譯方面更加充分地體現奧林匹克的共贏精神，還需要技術的進一步助力。”雖然機器翻譯的水平隨著人工智慧技術的進展在不斷提高，但縱觀市面上的翻譯技術和產品，大多專注於訓練資源更加豐富大語種，而忽略了低資源的小語種。但事實是，使用小語種的國家和人群屬於經濟欠發達行列的佔比更大，他們更需要獲取新資訊、新知識、新技術。

“我們的目標是‘一個也不能少’，希望所有奧運參賽國的運動員和受眾不僅可以在機器翻譯技術的幫助下更好地參加和觀看奧運會，還可以瞭解到世界上更多的前沿資訊。這個專案可能並不能帶來巨大的商業價值，我們也不是為了發表論文，我們更希望的是我們的技術可以幫助小語種使用者開啟視野，打破人類語言交流的障礙，這類研究非常有意義。”

將想法付諸於行動後，秦濤和研究院以及產品部門的同事們一起利用對偶學習、預訓練等技術，克服了小語種使用範圍小、學習語料少的困難，在近期為微軟翻譯又添加了14種語言和方言翻譯，包括美尼亞語、亞塞拜然語、藏語、高棉語、蒂格里尼亞語、阿姆哈拉奇語、寮國語、緬甸語、尼泊爾語、土庫曼語、蒙古語（西里爾文字）、蒙古語（傳統文字）、維吾爾語和烏茲別克語（拉丁文字）。目前微軟翻譯已支援103種語言和方言的翻譯。

語音合成實現“秒殺”

除了將機器學習的強大優勢應用在語言翻譯方面，秦濤和團隊還積極探索機器學習在語音合成上的更多可能性。儘管深度神經網路近年來已被學術界所認可，應用在語音合成方面也有不錯的效果，但秦濤和同事們發現模型的執行非常慢，即使使用 V100這種在2019年效能最佳的 GPU 也達不到實時的效果——一句5秒鐘的話，機器卻無法在5秒內合成語音。而透過不斷增加 GPU 來完成任務，其成本是無法承擔的，因此使用者也無法受益於最新的機器學習技術。為此，秦濤團隊和浙江大學聯合推出了 FastSpeech 演算法，將梅爾譜的生成速度提高了近270倍，讓端到端平均合成一條5秒鐘語音的時間達到0.18秒，單 GPU 上的語音合成速度達到了實時語音速度的30倍。

《Dual Learning（對偶學習）》

如今，FastSpeech 演算法已經在微軟的產品中大範圍應用，包括 Teams、Skype、Windows、Azure 中的所有語音合成服務，現在微軟的語音合成（TTS）服務已支援超過110種語言和270多種語音。

在開放、包容、多元的研究環境中成長

從2003年的實習生，到2008年的正式研究員，再到今天的首席研究員，角色的變化讓秦濤感受責任的不同。“在實習期間，我主要集中精力於做實驗、寫論文；而成為正式的研究員後，我思考的更多的是研究的價值和意義，如何與同事們一起完成‘頂天立地’的研究。”秦濤解釋道，頂天就是要做最前沿的研究，例如研究院近年來鼓勵的 AI+科學的交叉研究方向；立地則是要做有用的研究，希望我們的技術能夠透過改進微軟的產品，造福所有使用者。

在微軟亞洲研究院工作的18年讓秦濤愈發感受到了開放、協作、多元、包容文化對創新型研究的促進作用。為了推動跨領域交流和交叉學科的研究，微軟亞洲研究院引入了各領域的優秀人才，同時還會不定期地組織交流分享活動。秦濤負責組織的“大師論壇”會邀請公司內外部專家分享跨領域的專業知識和洞察。“在與不同專業背景的同事合作研究的過程中，我們會有不認同、質疑對方的時刻，但是很多新的思想正是在碰撞中產生的；對於一致認同的想法，我們會共同讓想法落地；對於新的觀點，也會嘗試驗證，提出新的演算法、正規化，不斷推進研究工作。”在秦濤看來，求同存異對於研究創新至關重要。

秦濤與團隊成員開會探討研究進展（右三：秦濤）

此外，當有實習生提出新想法時，秦濤會鼓勵大家從一開始就將想法提煉成一兩頁的書面文件。這樣做不僅能理清思路，為後續研究工作形成論文打好基礎，更重要的是可以把想法在初期就分享給其他人，及時獲取反饋、建議和質疑，從而確保工作在起步階段就可以站在巨人的肩膀上。秦濤還強調，做研究並不是為了發論文，發論文是為了做更好的、有意義的研究，只有好的研究工作才值得發論文。

業餘時間，秦濤喜歡讀書。為了拓寬自己的視野，他讀書的範圍並不侷限於專業領域。最近秦濤正在讀《後疫情時代的中國經濟》和《人類進化史》兩本書。秦濤認為，雖然這些書對自己的專業研究沒有直接的幫助，但卻可以讓自己看得更遠、更深，和微軟一起更好地承擔起社會責任。

分類： 家居

時間： 2021-12-15

科學匠人｜秦濤：以獨立、深度的視角看世界做有意義、創新的研究

相關文章

人稱“中國彩虹”，吃起來卻很苦，以前撈來餵鴨子，如今價格漲了
"小喬--小喬,今天放學以後去摸魚吧!" "我可不敢--最近咱們那邊有好幾個人摸魚被水沖走了呢" "還真是小女生--摸魚都不敢----我喊著剛子它們去 ...

三星W22 5G手機發布，價格有點貴...
三星 W22 5G 手機搭載 7.6 英寸 2208 x 1768 Dynamic AMOLED 屏,具有自適應 120Hz 重新整理率,配備屏下前置攝像頭三星 W22 5G 手機搭載驍龍 888 ...

科學匠人｜秦濤：以獨立、深度的視角看世界 做有意義、創新的研究

相關文章

人稱“中國彩虹”，吃起來卻很苦，以前撈來餵鴨子，如今價格漲了 "小喬--小喬,今天放學以後去摸魚吧!" "我可不敢--最近咱們那邊有好幾個人摸魚被水沖走了呢" "還真是小女生--摸魚都不敢----我喊著剛子它們去 ...

三星W22 5G手機發布，價格有點貴... 三星 W22 5G 手機搭載 7.6 英寸 2208 x 1768 Dynamic AMOLED 屏,具有自適應 120Hz 重新整理率,配備屏下前置攝像頭 三星 W22 5G 手機搭載驍龍 888 ...

科學匠人｜秦濤：以獨立、深度的視角看世界做有意義、創新的研究

人稱“中國彩虹”，吃起來卻很苦，以前撈來餵鴨子，如今價格漲了
"小喬--小喬,今天放學以後去摸魚吧!" "我可不敢--最近咱們那邊有好幾個人摸魚被水沖走了呢" "還真是小女生--摸魚都不敢----我喊著剛子它們去 ...

三星W22 5G手機發布，價格有點貴...
三星 W22 5G 手機搭載 7.6 英寸 2208 x 1768 Dynamic AMOLED 屏,具有自適應 120Hz 重新整理率,配備屏下前置攝像頭三星 W22 5G 手機搭載驍龍 888 ...