哥倫比亞大學的神經工程師創造了一個系統,可以將思想轉換成可理解、可識別的語言。
透過監測一個人的大腦活動,這項技術可以以前所未有的清晰度重建一個人聽到的單詞。這一突破利用了語音合成器和人工智慧的力量,可能會帶來計算機直接與大腦交流的新方法。它還能幫助無法說話的人(例如患有肌萎縮側索硬化症 (ALS) 或中風康復的人)重新獲得與外界交流的能力。
這些發現發表《Scientific Reports》上。
哥倫比亞大學的研究人員Nima Mesgarani 博士說:“我們的聲音有助於將我們與朋友、家人和周圍的世界聯絡起來,這就是為什麼由於受傷或疾病而失去聲音的力量如此具有破壞性,透過這項研究,我們有可能恢復這種力量。我們已經證明,只要有合適的技術,任何聽者都可以破譯和理解這些人的想法。”
數十年的研究表明,當人們說話時——甚至想象說話時——大腦中會出現明顯的活動模式。當我們聽某人說話或想象聆聽時,也會出現不同(但可識別)的訊號模式。試圖記錄和解碼這些模式的專家們認為,在未來,思想不需要隱藏在大腦中,而是可以隨意翻譯成言語。
事實證明,要實現這一壯舉具有非常大的挑戰性。Mesgarani 博士和其他人對大腦訊號進行解碼的早期努力主要集中在分析頻譜圖的簡單計算機模型上,頻譜圖是聲音訊率的視覺表示。
但由於這種方法無法產生任何類似可理解語音的東西,Mesgarani 博士的團隊轉而使用聲碼器,這是一種計算機演算法,可以在對人們說話的錄音進行訓練後合成語音。
上圖(A) 受試者聽自然語音的句子。然後使用聽者聽覺皮層中的誘發神經活動群來重建語音刺激。示例物件中的響應電極以紅色顯示。從神經資料中提取高頻帶和低頻帶。使用了兩種型別的迴歸模型和兩種語音表徵,產生了四種組合:線性迴歸到聽覺頻譜圖(淺藍色)、線性迴歸到聲碼器(深藍色)、DNN 到聽覺頻譜圖和 DNN 到聲碼器(深紅色)。
(B)所有模型的輸入是一個包含低頻 (LF) 和高伽馬包絡 (HG) 的 300 ms 滑動視窗。DNN 架構由兩個模組組成:特徵提取和特徵求和網路。用於聽覺頻譜圖重建的特徵提取是全連線神經網路(FCN)。對於聲碼器重建,特徵提取網路由一個FCN和一個區域性連線網路(LCN)連線而成。特徵求和網路是一種雙層全連線神經網路(FCN)。
(C) 聲碼器引數包括頻譜包絡、基頻 (f0)、發聲和非週期性(共 516 個引數)。使用具有瓶頸層的自動編碼器將 516 個聲碼器引數減少到 256 個。然後將bottleneck特徵用作重建演算法的目標。聲碼器引數是使用自動編碼器網路的解碼器部分從重建的bottleneck特徵中計算出來的。
Mesgarani 博士表示,“這與 Amazon Echo 和 Apple Siri 回答我們的問題的技術相同。”
為了教聲碼器解讀大腦活動,Mesgarani博士與醫學博士Ashesh Dinesh Mehta合作,他是Northwell Health Physician Partners Neuroscience Institute 的神經外科醫生、,也是該論文的合著者。Mehta醫生治療癲癇患者。
“與 Mehta 博士合作,我們要求已經接受腦部手術的癲癇患者聽不同人所說的句子,同時我們測量了大腦活動的模式,”Mesgarani 博士說。“這些神經模式訓練了聲碼器。”
接下來,研究人員讓這些患者聽0到9之間的數字的發聲,同時記錄大腦訊號,然後透過聲碼器播放這些訊號。聲碼器對這些訊號產生的聲音由神經網路分析和清理,神經網路是一種模仿生物大腦神經元結構的人工智慧。
最終的結果是一個聽起來像機器人的聲音背誦了一系列數字。為了測試錄音的準確性,Mesgarani 博士和他的團隊要求每個人聽錄音並報告他們聽到的內容。
深度神經網路架構 (A)圖頂部為語音樣本的原始聽覺頻譜圖。四種模型的重建聽覺頻譜圖如下所示。(B)原始(上)和四種重建模型在清音(t =1.4秒)和濁音(t = 1.15秒)時的頻帶幅值功率(在A中虛線顯示)。
Mesgarani博士說:“我們發現人們在75%的時間裡能夠聽懂並重復這些聲音,這遠遠超過了之前的任何嘗試。”當將新錄音與早期基於譜圖的嘗試進行比較時,清晰度的提高尤其明顯。“靈敏的聲碼器和強大的神經網路以驚人的準確性代表了患者最初聽到的聲音。”
Mesgarani 博士和他的團隊計劃接下來測試更復雜的單詞和句子,他們希望對一個人說話或想象說話時發出的大腦訊號進行相同的測試。最終,他們希望他們的系統可以成為植入物的一部分,類似於一些癲癇患者佩戴的植入物,將佩戴者的想法直接轉化為文字。
客觀、易懂的不同模型的評分。(A)基於四種模型的所有受試者的平均ESTOI分數。(B)電極的覆蓋範圍和位置,以及五名受試者的ESTOI評分。在所有受試者中,DNN聲碼器的ESTOI得分高於其他模型。
Mesgarani博士說:“在這種情況下,如果佩戴者認為‘我需要一杯水’,我們的系統就可以接收到這種想法產生的大腦訊號,並將其轉換成合成的言語。”“這將改變遊戲規則。它將給任何因受傷或疾病而失去說話能力的人重新獲得與周圍世界聯絡的機會。”
參考
Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex. Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z
https://www.sciencedaily.com/releases/2019/01/190129081919.htm
https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech