sponsored links

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究

編者按:NeurIPS 2021大會剛剛結束。在今年的大會上,微軟亞洲研究院共有22篇論文入選,而其中的8篇都有微軟亞洲研究院首席研究員秦濤的參與。自加入微軟亞洲研究院以來,秦濤已在 NeurIPS、ICML、ICLR、IJCAI、AAAI、CVRP 等業界頂級期刊、會議上發表了100餘篇論文,他所帶領的團隊也在2018年將中-英機器翻譯提升至人類專業水平,在2019年國際機器翻譯大賽上獲得8項冠軍,並且還開發了迄今為止最強大的麻將 AI 系統 Suphx,所研發的語音合成技術被廣泛應用於微軟 Azure 認知服務、Windows 等多個微軟核心產品和服務中。如何持續不斷地產出高質量的科研創新成果?或許你可以從秦濤的科研經歷中獲得一份“錦囊”。



在 NeurIPS 2021大會上,微軟亞洲研究院首席研究員秦濤博士參與的論文有8篇被收錄,成為本屆大會收錄論文數最高的研究員之一。其中一篇論文重新審視了深度學習中廣泛使用的 Dropout 演算法,針對其訓練和測試階段的不一致性提出了改進演算法 R-Drop;另一篇擯棄了傳統生成式建模中由一個過於簡化的邊緣(先驗)分佈加一個條件分佈來確定兩個隨機變數聯合分佈的做法,提出了由兩個條件分佈來確定聯合分佈的理論,從而避免了使用因過於簡化而與實際不符的邊緣分佈,並基於此理論提出了一個全新的生成式建模模式 CyGen。R-Drop 的論文體現了科研人員對已有技術的反思與獨立思考能力,而 CyGen 的文章則更具原創性,反映了科研思維的深度。秦濤說,“做研究時,碰到別人習以為常的事情,我們需要思考那樣做是否有道理,是否可以改進,從而培養自己獨立思考、深度思考的習慣。”

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


微軟亞洲研究院首席研究員秦濤

事實上,不僅是在今年的 NeurIPS 大會上秦濤和團隊“盆缽滿盈”,自加入微軟亞洲研究院以來,秦濤已在頂級期刊、會議上發表了100餘篇論文。同時,他所帶領的團隊近年來也在學術界、產業界屢獲佳績,不少科研成果已被廣泛應用。

究竟是怎樣的“魔力”可以讓秦濤在研究中另闢蹊徑,不斷提出新問題,應對新挑戰,創造無限可能?

加入微軟亞洲研究院是不二選擇

2008年,秦濤正式加入了微軟亞洲研究院,但在此之前他已經是這裡的一名“老員工”了。2003年,還在讀碩士的秦濤來到微軟亞洲研究院實習,一直到博士畢業。期間,秦濤還曾作為優秀實習生受邀到比爾·蓋茨家參加活動。“微軟亞洲研究院是當時國內最好的計算機科學研究機構。五年的實習時間已經讓我體會到了研究院自由的研究環境和學術氛圍。”秦濤說,“這裡擁有眾多優秀的研究人員和實習生,與其單打獨鬥,研究院更鼓勵我們共同合作創新。所以畢業後,我沒有考慮其他選擇,毫不猶豫地加入了微軟亞洲研究院。”

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


2007年微軟亞洲研究院優秀實習生合影(右一:秦濤)

從實習生到正式的研究員,秦濤的研究方向發生了多次轉換。實習初期秦濤主要從事影象檢索方面的研究,利用 SVM、Boosting 或決策樹等技術處理人工設計特徵(比如直方圖、紋理分佈、SIFT 等)。2005年,微軟意識到了網際網路搜尋的發展前景,開始佈局搜尋引擎業務。於是,秦濤和團隊開始集中精力於網際網路搜尋的研究。

全情投入很快得到了回報,在同年資訊檢索領域的頂級學術大會 SIGIR 收錄的75篇論文中,有15篇來自微軟亞洲研究院,佔比20%。“我們每個人都穿著同樣的T恤,合影時不斷引來大家的關注和稱讚,‘你們(微軟亞洲研究院)來了這麼多人呀‘”,回憶起當年參會的場景,秦濤依舊難掩興奮之情。這次經歷讓秦濤倍感榮耀,也讓他感受到了微軟亞洲研究院在全球計算機科研界的實力與位置。

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


2005年,秦濤參加 SIGIR 大會

網際網路搜尋工作的持續進步,以及與產品團隊的深入合作,讓秦濤又將目光對準了網際網路廣告的研究。不同於網際網路搜尋中只對網頁進行正常排序,網際網路廣告則需要將優質的廣告和使用者的查詢詞按相關度排序,以提升使用者的體驗。於是秦濤和同事們開始著手於廣告點選率預測的相關研究,並拓展到廣告拍賣機制的設計和改進,以實現必應(Bing)廣告業務的最佳化。其實無論是圖文檢索、網際網路搜尋,還是廣告排序,都是機器學習技術的應用,這些積累也讓秦濤及團隊看到了深度學習、深度神經網路等技術的潛力,為後來秦濤團隊在機器翻譯、語音合成、語音識別、強化學習等領域的突破性創新奠定了基礎。

創新對偶學習,帶來更多可能性

隨著對機器學習技術的深入研究,秦濤團隊發現很多實際應用中的機器學習任務的輸入輸出互為對偶,比如機器翻譯中的中翻英任務和英翻中任務,語音處理中的語音合成任務(從文字到語音)和語音識別任務(從語音到文字),圖文處理中的“看圖說話”任務(從影象生成文字)和基於文字的影象生成任務。利用這種機器學習任務之間輸入輸出的對偶屬性可以對無標註資料進行學習,提升機器學習演算法特別是深度學習演算法的效能。

這就是由秦濤團隊2016年提出,今天已為業界所熟知的機器學習新正規化——對偶學習。對偶學習思想最關鍵的地方在於,給定一個原始任務模型,它的對偶任務模型可以給其提供反饋;同樣的,給定一個對偶任務的模型,其原始任務模型也可以給該對偶任務的模型提供反饋,從而這兩個互為對偶的任務可以相互提供反饋,相互學習,共同提高。

最初,對偶學習只為解決機器翻譯任務,後來逐漸應用於更廣泛的領域,包括機器問答、語音識別、語音合成,甚至是影象風格的轉換,比如將影象從梵高風格轉換成其他畫家的風格,將山水畫轉變為油畫,等等。對偶學習還可以用於智慧程式碼生成任務,同時提高程式碼註釋與程式碼生成的效能。

值得一提的是,得益於對偶學習,秦濤團隊助力微軟機器翻譯在2018年中-英機器翻譯中達到了媲美人類專業翻譯的水平,並在2019年的機器翻譯比賽中獲得了8項機器翻譯冠軍。2020年,秦濤和同事們還將對偶學習編寫成書,讓更多人瞭解和使用這一技術。

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


《Dual Learning(對偶學習)》

對偶學習從技術上講並不是特別困難,而在於換個角度看問題,把具有對偶屬性的兩個任務放在一起聯合學習,利用兩個模型的輸入輸出形成反饋閉環,這不同於傳統的單任務學習正規化,也不同於近年來的多工學習。秦濤總結到,“更重要的是創新性思維,能否從一個全新的視角看問題,做到這一點就不難發現一片新的天地。”

做有意義的研究:小語種機器翻譯

讓秦濤擁有成就感的研究專案不少,但其中有一項工作意義尤為特殊——低資源機器翻譯。就在前不久,微軟翻譯突破了百種語言和方言大關。“要突破100種語言的契機和靈感來源於奧運會,”秦濤介紹道,“我們發現2020年東京奧運會的官方網站上只提供了7種語言支援,而參賽的國家卻有200多個。若要在語言翻譯方面更加充分地體現奧林匹克的共贏精神,還需要技術的進一步助力。”雖然機器翻譯的水平隨著人工智慧技術的進展在不斷提高,但縱觀市面上的翻譯技術和產品,大多專注於訓練資源更加豐富大語種,而忽略了低資源的小語種。但事實是,使用小語種的國家和人群屬於經濟欠發達行列的佔比更大,他們更需要獲取新資訊、新知識、新技術。

“我們的目標是‘一個也不能少’,希望所有奧運參賽國的運動員和受眾不僅可以在機器翻譯技術的幫助下更好地參加和觀看奧運會,還可以瞭解到世界上更多的前沿資訊。這個專案可能並不能帶來巨大的商業價值,我們也不是為了發表論文,我們更希望的是我們的技術可以幫助小語種使用者開啟視野,打破人類語言交流的障礙,這類研究非常有意義。”

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究

將想法付諸於行動後,秦濤和研究院以及產品部門的同事們一起利用對偶學習、預訓練等技術,克服了小語種使用範圍小、學習語料少的困難,在近期為微軟翻譯又添加了14種語言和方言翻譯,包括美尼亞語、亞塞拜然語、藏語、高棉語、蒂格里尼亞語、阿姆哈拉奇語、寮國語、緬甸語、尼泊爾語、土庫曼語、蒙古語(西里爾文字)、蒙古語(傳統文字)、維吾爾語和烏茲別克語(拉丁文字)。目前微軟翻譯已支援103種語言和方言的翻譯。

語音合成實現“秒殺”

除了將機器學習的強大優勢應用在語言翻譯方面,秦濤和團隊還積極探索機器學習在語音合成上的更多可能性。儘管深度神經網路近年來已被學術界所認可,應用在語音合成方面也有不錯的效果,但秦濤和同事們發現模型的執行非常慢,即使使用 V100這種在2019年效能最佳的 GPU 也達不到實時的效果——一句5秒鐘的話,機器卻無法在5秒內合成語音。而透過不斷增加 GPU 來完成任務,其成本是無法承擔的,因此使用者也無法受益於最新的機器學習技術。為此,秦濤團隊和浙江大學聯合推出了 FastSpeech 演算法,將梅爾譜的生成速度提高了近270倍,讓端到端平均合成一條5秒鐘語音的時間達到0.18秒,單 GPU 上的語音合成速度達到了實時語音速度的30倍。

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


《Dual Learning(對偶學習)》

如今,FastSpeech 演算法已經在微軟的產品中大範圍應用,包括 Teams、Skype、Windows、Azure 中的所有語音合成服務,現在微軟的語音合成(TTS)服務已支援超過110種語言和270多種語音。

在開放、包容、多元的研究環境中成長

從2003年的實習生,到2008年的正式研究員,再到今天的首席研究員,角色的變化讓秦濤感受責任的不同。“在實習期間,我主要集中精力於做實驗、寫論文;而成為正式的研究員後,我思考的更多的是研究的價值和意義,如何與同事們一起完成‘頂天立地’的研究。”秦濤解釋道,頂天就是要做最前沿的研究,例如研究院近年來鼓勵的 AI+科學的交叉研究方向;立地則是要做有用的研究,希望我們的技術能夠透過改進微軟的產品,造福所有使用者。

在微軟亞洲研究院工作的18年讓秦濤愈發感受到了開放、協作、多元、包容文化對創新型研究的促進作用。為了推動跨領域交流和交叉學科的研究,微軟亞洲研究院引入了各領域的優秀人才,同時還會不定期地組織交流分享活動。秦濤負責組織的“大師論壇”會邀請公司內外部專家分享跨領域的專業知識和洞察。“在與不同專業背景的同事合作研究的過程中,我們會有不認同、質疑對方的時刻,但是很多新的思想正是在碰撞中產生的;對於一致認同的想法,我們會共同讓想法落地;對於新的觀點,也會嘗試驗證,提出新的演算法、正規化,不斷推進研究工作。”在秦濤看來,求同存異對於研究創新至關重要。

科學匠人|秦濤:以獨立、深度的視角看世界 做有意義、創新的研究


秦濤與團隊成員開會探討研究進展(右三:秦濤)

此外,當有實習生提出新想法時,秦濤會鼓勵大家從一開始就將想法提煉成一兩頁的書面文件。這樣做不僅能理清思路,為後續研究工作形成論文打好基礎,更重要的是可以把想法在初期就分享給其他人,及時獲取反饋、建議和質疑,從而確保工作在起步階段就可以站在巨人的肩膀上。秦濤還強調,做研究並不是為了發論文,發論文是為了做更好的、有意義的研究,只有好的研究工作才值得發論文。

業餘時間,秦濤喜歡讀書。為了拓寬自己的視野,他讀書的範圍並不侷限於專業領域。最近秦濤正在讀《後疫情時代的中國經濟》和《人類進化史》兩本書。秦濤認為,雖然這些書對自己的專業研究沒有直接的幫助,但卻可以讓自己看得更遠、更深,和微軟一起更好地承擔起社會責任。

分類: 家居
時間: 2021-12-15

相關文章

油耗降低至4L,價格不貴又大又省心的合資三廂車,帶你看本田享域

油耗降低至4L,價格不貴又大又省心的合資三廂車,帶你看本田享域
油耗降低至4L,價格不貴又大又省心的合資三廂車,帶你看本田享域 城市的走走停停讓城市的平均時速並不如高速快,但是實際上大家都知道城市油耗要遠比高度油耗要大.原因其實很簡單,就像咱們騎腳踏車一樣,車剛騎 ...

3款容易被忽略的緊湊型SUV,2.0T最高254馬力,配置高、價格不貴

3款容易被忽略的緊湊型SUV,2.0T最高254馬力,配置高、價格不貴
很多朋友買車都會選一臺緊湊型SUV,畢竟緊湊型SUV價位適中.空間夠大,買回家也能夠應付家用.像大部分人買緊湊型SUV就都會去選擇那些銷量排行榜上靠前的車型,比如說哈弗H6.吉利博越.長安CS75 P ...

入門三廂豪華車,價格不貴效能不錯,有5.8L低油耗,實拍寶馬2系

入門三廂豪華車,價格不貴效能不錯,有5.8L低油耗,實拍寶馬2系
入門三廂豪華車,價格不貴效能不錯,還有5.8L低油耗,實拍寶馬2系 豪華品牌的入門車型一直以來都是最走量的,畢竟價格便宜受眾還是很廣泛的,而想要走量,多佈局幾款車型還是一個很好的辦法,各種消費者需求都 ...

國足天價酒店風波:價格不是問題,菜才是原罪

國足天價酒店風波:價格不是問題,菜才是原罪
前段時間,中國男足入住天價豪華酒店成為近日最勁爆的國內足球新聞. 有媒體透過網路預訂平臺搜尋中國隊在沙迦駐地酒店時發現,該酒店最便宜的房間價格都接近每晚8000元.但其實這是個經不起推敲的價格.受疫情 ...

人稱“中國彩虹”,吃起來卻很苦,以前撈來餵鴨子,如今價格漲了

人稱“中國彩虹”,吃起來卻很苦,以前撈來餵鴨子,如今價格漲了
"小喬--小喬,今天放學以後去摸魚吧!" "我可不敢--最近咱們那邊有好幾個人摸魚被水沖走了呢" "還真是小女生--摸魚都不敢----我喊著剛子它們去 ...

“18種”勤花勤苗的蘭花,價格不貴好養活,香味濃郁開品漂亮

“18種”勤花勤苗的蘭花,價格不貴好養活,香味濃郁開品漂亮
蘭花不是牡丹那個雍容華貴,但是在我國的栽培歷史卻十分悠久,一直被文人墨客所喜愛.但是古代種蘭花的人並不多,主要是苗子稀少.但是現如今隨著科技的發展,組培苗.科技苗大量上市,蘭花也以非常低廉的價格進入了 ...

入秋後女性記得吃9種食物,葉酸含量高,價格不貴,人人吃得起

入秋後女性記得吃9種食物,葉酸含量高,價格不貴,人人吃得起
自從國家開放了三胎政策後,很多人都積極準備備孕.尤其是入秋後,氣溫逐漸降低,人體舒適度增加,想要寶寶的想法更加強烈了.眾所周知,備孕時女性需要補充葉酸.它是機體生長和繁殖必不可少的維生素之一,參與代謝 ...

三峽選船攻略⑾:三峽豪華遊輪價格較貴和最便宜分別是哪幾艘

三峽選船攻略⑾:三峽豪華遊輪價格較貴和最便宜分別是哪幾艘
你好,我是"美亞三峽遊輪"的鬍子船長.預訂三峽遊輪,價格才是大家最關心的話題,今天船長就來介紹較貴和最便宜的幾艘三峽遊輪. 以2021年渝宜航線下水(重慶到宜昌)為例,較貴的幾艘遊 ...

九大門票價格超貴的自然景觀,去過一次的人基本不會再去第二次

九大門票價格超貴的自然景觀,去過一次的人基本不會再去第二次
在國內,景點門票價格超過100元的已不在少數. 不管是知名度高或低,很多景點的門票價格,還有景區的各種收費一直被遊客所詬病.特別是一些原本就是自然景觀,再圍起來重新修整之後就開始收取高昂的門票. 今天 ...

這食材被稱為“平民蟲草”,價格不貴,營養不可小覷,煲湯很養人

這食材被稱為“平民蟲草”,價格不貴,營養不可小覷,煲湯很養人
秋季是個煲湯的季節,隨著炎熱潮溼的夏季結束,乾燥多風的秋季悄然而至,多喝一些滋補營養的湯水更容易消化吸收,而且能很好的補充水分.老傳統的養生理念中,"秋補"要遵循"&qu ...

鋼材價格越來越貴,5個原因造成價格難以下降

鋼材價格越來越貴,5個原因造成價格難以下降
這兩年鋼材的價格漲得真的是有點太瘋狂了,別管是新的還是回收的,只要跟鋼材有關係,價格都漲了一年多了,而且不僅僅是咱們國內鋼材的價格連續上漲,甚至國外很多國家都出現了這樣的情況,而且以美國為代表的鋼材價 ...

探店丨大眾探影,小身材大空間,好停車,就是價格有點貴

探店丨大眾探影,小身材大空間,好停車,就是價格有點貴
近日,有粉絲留言想了解一下2021款大眾探影的相關資訊以及購車建議,為了能夠給粉絲提供更為準確以及最細的相關資訊,我們走進了當地大眾4S店實際體驗了一番. 2021款大眾探影共有9種不同配置的車型,其 ...

從萌到酷 內飾更舒適 價格偏貴 尤拉白貓小野貓版實拍簡評

從萌到酷 內飾更舒適 價格偏貴 尤拉白貓小野貓版實拍簡評
尤拉在推出"貓"系列產品後,成功打開了女性市區代步用車的市場,品牌也朝著女性化方面不斷髮力.不過,與黑貓和好貓受歡迎程度不同,白貓的表現可謂慘淡,雖然它也著力去體現了很多" ...

高性價比觀念下的價格追求:我們依舊只是在高價與低價之間徘徊

高性價比觀念下的價格追求:我們依舊只是在高價與低價之間徘徊
2011年,小米手機橫空出世.小米手機的出現拉開了一個新時代的序幕.主打"極致價效比"的小米,不僅引動了手機降價的風潮,更是帶動了"價效比"觀念的流行.從此中國 ...

音質表現好的無線藍芽耳機推薦,體驗姣好,價格不貴

音質表現好的無線藍芽耳機推薦,體驗姣好,價格不貴
圖拉斯H8藍芽耳機 深圳市圖拉斯科技有限公司隸屬於深圳市蘭禾科技有限公司,專注於產品研發和品牌建設,擁有圖拉斯.銳夫等知名品牌,曾榮獲多項設計獎項.而Tulas由於價格相當實惠,品質優良,深受消費者歡 ...

醜出新高度,價格卻貴得離譜

醜出新高度,價格卻貴得離譜
文玩人都有一雙發現美欣賞美的眼睛,要不為啥吭哧吭哧每天都堅持盤玩,就是期待它們包漿完成之後的美樣子.然而在文玩圈,有這麼一些醜的不要不要的文玩,價格不僅不便宜,還貴得離譜,而且是越醜越貴! 1.瓣數奇 ...

想要價效比首選它家!美景美家MJ系列房車,配置適合價格不貴

想要價效比首選它家!美景美家MJ系列房車,配置適合價格不貴
美景美家近兩年的房車產品不斷完善,目前形成了MJ系列整個產品線,包含目前在售的MJ6,MJ7,MJH300,MJ420這幾款主打車型,涵蓋了依維柯底盤C型,上汽躍進H300底盤房車以及拖掛式房車.總體 ...

實拍秦PLUS EV,綜合實力很出色,價格不貴空間大,家用正合適

實拍秦PLUS EV,綜合實力很出色,價格不貴空間大,家用正合適
秦PLUS EV到底如何?這是我身邊的朋友最近問我問得比較多的問題.很多車主之所以會在這輛車上進行消費,"刀片電池"是絕對的亮點,這種電池能夠很大程度上提升車輛的安全性.目前售價區 ...

價格不貴好養活,豐田全球品質,三廂自動擋,實拍YARiS L致享

價格不貴好養活,豐田全球品質,三廂自動擋,實拍YARiS L致享
家用車究竟該怎麼選?雖然每個人的需求點不一樣,看重的方面也不一樣,但從絕大部分家庭來看,筆者認為省心.省油.好用這三點是一臺合格的家用車應有的標準.而在這偌大的汽車市場中,符合這三個特點的車型有很多, ...

三星W22 5G手機發布,價格有點貴...
三星 W22 5G 手機搭載 7.6 英寸 2208 x 1768 Dynamic AMOLED 屏,具有自適應 120Hz 重新整理率,配備屏下前置攝像頭 三星 W22 5G 手機搭載驍龍 888 ...