sponsored links

工程師將大腦訊號直接轉化為語音

哥倫比亞大學的神經工程師創造了一個系統,可以將思想轉換成可理解、可識別的語言。

透過監測一個人的大腦活動,這項技術可以以前所未有的清晰度重建一個人聽到的單詞。這一突破利用了語音合成器和人工智慧的力量,可能會帶來計算機直接與大腦交流的新方法。它還能幫助無法說話的人(例如患有肌萎縮側索硬化症 (ALS) 或中風康復的人)重新獲得與外界交流的能力。

這些發現發表《Scientific Reports》上。

哥倫比亞大學的研究人員Nima Mesgarani 博士說:“我們的聲音有助於將我們與朋友、家人和周圍的世界聯絡起來,這就是為什麼由於受傷或疾病而失去聲音的力量如此具有破壞性,透過這項研究,我們有可能恢復這種力量。我們已經證明,只要有合適的技術,任何聽者都可以破譯和理解這些人的想法。”

數十年的研究表明,當人們說話時——甚至想象說話時——大腦中會出現明顯的活動模式。當我們聽某人說話或想象聆聽時,也會出現不同(但可識別)的訊號模式。試圖記錄和解碼這些模式的專家們認為,在未來,思想不需要隱藏在大腦中,而是可以隨意翻譯成言語。

事實證明,要實現這一壯舉具有非常大的挑戰性。Mesgarani 博士和其他人對大腦訊號進行解碼的早期努力主要集中在分析頻譜圖的簡單計算機模型上,頻譜圖是聲音訊率的視覺表示。

但由於這種方法無法產生任何類似可理解語音的東西,Mesgarani 博士的團隊轉而使用聲碼器,這是一種計算機演算法,可以在對人們說話的錄音進行訓練後合成語音。

工程師將大腦訊號直接轉化為語音


語音重建方法的示意圖

上圖(A) 受試者聽自然語音的句子。然後使用聽者聽覺皮層中的誘發神經活動群來重建語音刺激。示例物件中的響應電極以紅色顯示。從神經資料中提取高頻帶和低頻帶。使用了兩種型別的迴歸模型和兩種語音表徵,產生了四種組合:線性迴歸到聽覺頻譜圖(淺藍色)、線性迴歸到聲碼器(深藍色)、DNN 到聽覺頻譜圖和 DNN 到聲碼器(深紅色)。

工程師將大腦訊號直接轉化為語音

(B)所有模型的輸入是一個包含低頻 (LF) 和高伽馬包絡 (HG) 的 300 ms 滑動視窗。DNN 架構由兩個模組組成:特徵提取和特徵求和網路。用於聽覺頻譜圖重建的特徵提取是全連線神經網路(FCN)。對於聲碼器重建,特徵提取網路由一個FCN和一個區域性連線網路(LCN)連線而成。特徵求和網路是一種雙層全連線神經網路(FCN)。

工程師將大腦訊號直接轉化為語音

(C) 聲碼器引數包括頻譜包絡、基頻 (f0)、發聲和非週期性(共 516 個引數)。使用具有瓶頸層的自動編碼器將 516 個聲碼器引數減少到 256 個。然後將bottleneck特徵用作重建演算法的目標。聲碼器引數是使用自動編碼器網路的解碼器部分從重建的bottleneck特徵中計算出來的。

Mesgarani 博士表示,“這與 Amazon Echo 和 Apple Siri 回答我們的問題的技術相同。”

為了教聲碼器解讀大腦活動,Mesgarani博士與醫學博士Ashesh Dinesh Mehta合作,他是Northwell Health Physician Partners Neuroscience Institute 的神經外科醫生、,也是該論文的合著者。Mehta醫生治療癲癇患者。

“與 Mehta 博士合作,我們要求已經接受腦部手術的癲癇患者聽不同人所說的句子,同時我們測量了大腦活動的模式,”Mesgarani 博士說。“這些神經模式訓練了聲碼器。”

接下來,研究人員讓這些患者聽0到9之間的數字的發聲,同時記錄大腦訊號,然後透過聲碼器播放這些訊號。聲碼器對這些訊號產生的聲音由神經網路分析和清理,神經網路是一種模仿生物大腦神經元結構的人工智慧。

最終的結果是一個聽起來像機器人的聲音背誦了一系列數字。為了測試錄音的準確性,Mesgarani 博士和他的團隊要求每個人聽錄音並報告他們聽到的內容。

工程師將大腦訊號直接轉化為語音

深度神經網路架構 (A)圖頂部為語音樣本的原始聽覺頻譜圖。四種模型的重建聽覺頻譜圖如下所示。(B)原始(上)和四種重建模型在清音(t =1.4秒)和濁音(t = 1.15秒)時的頻帶幅值功率(在A中虛線顯示)。

Mesgarani博士說:“我們發現人們在75%的時間裡能夠聽懂並重復這些聲音,這遠遠超過了之前的任何嘗試。”當將新錄音與早期基於譜圖的嘗試進行比較時,清晰度的提高尤其明顯。“靈敏的聲碼器和強大的神經網路以驚人的準確性代表了患者最初聽到的聲音。”

Mesgarani 博士和他的團隊計劃接下來測試更復雜的單詞和句子,他們希望對一個人說話或想象說話時發出的大腦訊號進行相同的測試。最終,他們希望他們的系統可以成為植入物的一部分,類似於一些癲癇患者佩戴的植入物,將佩戴者的想法直接轉化為文字。

工程師將大腦訊號直接轉化為語音

客觀、易懂的不同模型的評分。(A)基於四種模型的所有受試者的平均ESTOI分數。(B)電極的覆蓋範圍和位置,以及五名受試者的ESTOI評分。在所有受試者中,DNN聲碼器的ESTOI得分高於其他模型。

Mesgarani博士說:“在這種情況下,如果佩戴者認為‘我需要一杯水’,我們的系統就可以接收到這種想法產生的大腦訊號,並將其轉換成合成的言語。”“這將改變遊戲規則。它將給任何因受傷或疾病而失去說話能力的人重新獲得與周圍世界聯絡的機會。”

參考

Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex. Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z

https://www.sciencedaily.com/releases/2019/01/190129081919.htm

https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech


分類: 財經
時間: 2022-02-11

相關文章

冬季肛腸病發病率高?看看是怎麼回事

冬季肛腸病發病率高?看看是怎麼回事
隨著氣溫的下降和氣候的趨於乾冷,許多器質性疾病患者大大增加,諸如流行感冒的迅速傳播:慢性氣管炎和肺心病患者的症狀加重:慢性胃炎.胃及十二指腸患者病情加重:肝硬化所致的食道靜脈出血的發生:高血壓病人因血 ...

第一次住華爾道夫,有些喜歡上這個百年品牌了

第一次住華爾道夫,有些喜歡上這個百年品牌了
上上週帶家人去了趟廈門,刷了兩家酒店,希爾頓格芮精選和廈門華爾道夫. 至於為什麼去廈門呢?暑期真的去哪哪都貴,廈門算是暑期為數不多的酒店價格還算在可控區間內的海邊旅行城市了. 正好,可以帶娃度假. 關 ...

老品牌煥發新風采:Nanotec奈米金PS#309電源線

老品牌煥發新風采:Nanotec奈米金PS#309電源線
一直以來,潤豐都致力於為燒友們引進國內外的優質HIFI品牌,協助為系統增添好聲音成員.像是來自日本的奈米金Nanotec,雖廠家鮮少在宣傳方面下重本,但是"金"子總會發光,憑藉著專 ...

重慶啤酒:嘉士伯控股企業,憑藉“奪命大烏蘇”開啟全國空白市場

重慶啤酒:嘉士伯控股企業,憑藉“奪命大烏蘇”開啟全國空白市場
本報告pdf版獲取方式見文末 重慶啤酒自2016年至今股價漲幅超過十倍,領跑啤酒板塊. 嘉士伯進駐後輸入先進管理經驗,先透過關廠整合.刮骨療傷止住出血點,再進一步鞏固產品和市場優勢. 公司厚積薄發,在 ...

品牌與市值的背離之問,同仁堂被低估了嗎?

品牌與市值的背離之問,同仁堂被低估了嗎?
文 / 零度 本文轉載 / 節點研究 面對早已千億市值的片仔癀和雲南白藥,同為百年老字號的同仁堂(北京同仁堂股份有限公司,600085.SH)會作何感想?截止9月17日收盤,同仁堂的市值為432.2億 ...

百年車企放大招!全新大眾ID.6 X真的很符合國情

百年車企放大招!全新大眾ID.6 X真的很符合國情
近幾年新勢力造車的趨勢快速飛漲,單單國內的新勢力品牌就有數十家,這對傳統車企的影響也頗有之大,搶佔了一定的市場份額. 到了2021年裡顯然傳統車企就按耐不住了,比如大眾集團建立完專屬的新能源平臺之後, ...

博世天貓超級品牌日來襲,科技創新讓生活之美無處不在

博世天貓超級品牌日來襲,科技創新讓生活之美無處不在
一直以來博世以持續的科技創新致力於為每一代消費者創造美好生活.9月20日,擁有百年曆史的全球製造業巨頭博世再次攜手天貓超級品牌日發力線上市場,以一系列營銷大事件升級品牌與消費者的溝通,透過充滿感性與張 ...

【網路中國節 · 中秋】三才傢俱城,給您不一樣的體驗!

【網路中國節 · 中秋】三才傢俱城,給您不一樣的體驗!
三才正定傢俱市場第37屆秋季傢俱燈飾博覽會在正定縣縣委縣政府的正確領導下以及河北省傢俱協會等有關部門的大力支援下,於2021年9月13日正式開展,本次展會以" 打造百年品牌 助力經濟復甦&q ...

古風美妝,既不古也不美

古風美妝,既不古也不美
一旦國風美妝固化成"換湯不換藥"的改文案.湊概念.拼顏值,消費者還能為此買多久的單呢? 就算你沒買過國風美妝,也一定聽說過故宮彩妝.花西子雕花口紅.毛戈平國風系列-- 順著&quo ...

被低估的萬寶龍,高階製表實力如何

被低估的萬寶龍,高階製表實力如何
[腕錶之家 鐘錶技術]長期以來萬寶龍在我們的印象中是一個以書寫用品為主的品牌,比起它赫赫有名的鋼筆,腕錶似乎並不是那麼的出名.其實,萬寶龍於1997年才正式進軍腕錶領域,品牌推出的首枚腕錶以大班為名, ...

吃什麼食物能促進天天排便?一口氣推薦了4種食物,錯過多可惜

吃什麼食物能促進天天排便?一口氣推薦了4種食物,錯過多可惜
長途大巴上.上課時.開會時 最絕望的是什麼? 都不對 是屎意來襲又不能去廁所! 叔自己也試過 絕望地在網上搜索如何憋屎 卻發現根本沒有答案 屎意的產生 為了更好地憋屎 我們先得弄清屎意從哪來 至於是否 ...

40歲是腸癌的一道坎,不想招惹腸癌,3個惡習儘早改掉

40歲是腸癌的一道坎,不想招惹腸癌,3個惡習儘早改掉
"怎麼症狀這麼嚴重才來醫院?" "沒想到會這麼嚴重,醫生快救救我!" 劉明今年45歲,是城市裡普普通通的上班族,家裡有兩個孩子還在讀高中,經濟壓力大,平時省吃儉 ...

提醒:中老年人出現5種表現,可能發生了癌症,該做做檢查了

提醒:中老年人出現5種表現,可能發生了癌症,該做做檢查了
不敢病更不敢死. 都說中年人最難,上有老下有小,不敢生病,更不敢輕易死,因為自己就是全家的頂樑柱. 而今年,王強家的頂樑柱塌了,35歲,直腸癌.半年前,王強突然便血,本來以為只是痔瘡發作,沒想到半年瘦 ...

70萬級豪華SUV如何選?林肯飛行家/沃爾沃XC90/奧迪Q7

70萬級豪華SUV如何選?林肯飛行家/沃爾沃XC90/奧迪Q7
[太平洋汽車網 導購頻道]作為汽車媒體從業者,我們能夠清晰地感知到,最近兩三年以來,中國汽車市場已經進入一個嶄新的階段,儘管總體銷量增長放緩,但卻明顯往高質量的方向發展,一邊是廉價車型漸漸鮮有人問津, ...

技術新徵程?摩托古茲推新款V1000發動機,新技術帶來新車款

技術新徵程?摩托古茲推新款V1000發動機,新技術帶來新車款
來自義大利的摩托車品牌(Moto Guzzi)原本打算在今年3月慶祝誕生100週年,但因為疫情這個眾所周知的原因打亂了計劃,其中車友聚會直接挪到了明年9月舉行.雖然車友聚會推遲,但並不妨礙這家百年品牌 ...

肛門外的小肉球、小肉疙瘩是什麼?“元兇”可能有5個,保持警惕

肛門外的小肉球、小肉疙瘩是什麼?“元兇”可能有5個,保持警惕
今天小九刷手機時,看到一個帖子: 評論區網友耐心回覆了她: --應該是的,十男九痔十女十痔. --是的,就是痔瘡,我去醫院看過,以為是什麼大病,特意問的醫生,醫生說那是痔瘡.不過我感覺沒啥影響? -- ...

經常排便困難很難受?平時多吃2種“天然瀉劑”,讓你大便暢通

經常排便困難很難受?平時多吃2種“天然瀉劑”,讓你大便暢通
作為當代靚仔美女的難言之隱 如果要問便秘 是一種什麼樣的感受? 那就是無時無刻都有種 不"翔"的預感 別人上廁所 你上廁所 研究表明 中國如今的慢性便秘患者 佔3%-17.6% 年 ...

巍巍太行山 大美八泉峽

巍巍太行山 大美八泉峽
初識太行山大峽谷,感慨其"雄奇險幽",驚歎其"鬼斧神工".太行山大峽谷自然風光旅遊區位於山西省長治市壺關縣東南部,景區綿延百里,風光旖旎,氣勢磅礴,集泰山之雄. ...

清淡飲食=喝白粥?醫生口中的"清淡飲食"原來是這樣

清淡飲食=喝白粥?醫生口中的"清淡飲食"原來是這樣
如果要說,有什麼能和"多喝熱水"並肩成為萬能語句的,那一定少不了這句--"吃清淡點"! 感冒了?吃清淡點~ 腸胃不舒服?吃清淡點~ 大病初癒?吃清淡點吧! 無論 ...

危化品企業為何更看中TCO?二十年經驗的危貨物流人告訴你答案

危化品企業為何更看中TCO?二十年經驗的危貨物流人告訴你答案
近些年,隨著國家法規的不斷完善,危化品運輸對於車輛有著更加嚴苛的要求.車輛的安全性.可靠性成為當下使用者的首選標杆.但對於紮根危化品行業近20年的吉林市盛源運輸有限責任公司(以下簡稱吉林盛源)來說,這 ...