一、背景
腦機介面(BCI)可以幫助失去行動或語言能力的人恢復溝通能力。目前,腦機介面研究的一個主要重點是恢復患者的主要運動技能,如伸手和抓握或用電腦游標點選打字。然而,透過手寫或觸控打字這種更快速的高度靈巧的行為序列,可以實現更快的交流速度。
一篇由斯坦福大學的研究人員與神經外科臨床專家共同完成的、題目為《透過手寫實現高效能的腦-文字通訊》(High-performance brain-to-text communication via handwriting)的研究論文,以封面形式刊登在《Nature》雜誌上。
研究人員和臨床專家們,開發了一種全新的皮質內BCI系統,它利用運動皮層的神經活動解碼“手寫運動”,並使用遞迴神經網路(RNN)解碼方法將其實時翻譯為文字,最終實現“意念”書寫。透過這種BCI系統,研究參與者(其手因脊髓損傷而癱瘓)實現了每分鐘90個字元的打字速度,準確率可達99%,這種效率與參與者同年齡組的健全人群使用智慧手機的打字速度相當(每分鐘115個字元)。這項研究為BCI系統研究提供了一種新思路,並證明了在癱瘓多年後準確解碼快速、靈巧動作的可行性。
二、筆跡的神經表徵
被稱作“T5”的實驗參與者由於脊髓損傷幾乎失去了頸部以下的所有活動能力。研究人員在T5的左側大腦植入了兩個腦機介面晶片,每一個晶片都有 100 個電極,負責接收運動皮層神經元發出的訊號,這些神經訊號透過電線傳送到計算機,由人工智慧演算法解碼訊號並推測 T5的手和手指的預期運動。
a,為了評估嘗試書寫時的神經表徵,參與者T5嘗試按照計算機螢幕上給出的指令,一次書寫一個字元(底部面板按照時間軸描述了螢幕上顯示的內容)。
b,前3個主要的神經活動顯示為3個示例字母(d, e和m),每個字母重複27次(試驗)。在每個面板內分別對顏色進行歸一化以便視覺化。
c,對神經活動進行時間規整,以消除寫作速度不斷變化的影響,揭示出每個字母特有的一致的活動模式。在上面c的插圖中,給出了字母' m '的時間翹曲函式示例,相對接近恆等線(每次試驗的翹曲函式用不同顏色的線繪製)。
d,顯示了所有31個測試字元解碼後的筆軌跡。預期的2D筆尖速度透過交叉驗證從神經活動中線性解碼(每個字元都被保留),解碼器輸出透過在試驗中取平均以進行降噪。橙色的圓圈表示軌跡的起始點。
e,使用非線性降維方法(t-SNE)對神經活動進行二維視覺化。每個圓圈是一個單獨的試驗(31個字元中的每個字元顯示27個試驗)。
這些結果表明,即使在癱瘓多年後,運動皮層中筆跡的神經表徵仍然足夠強大,並且可以透過腦機介面技術表達出來。
圖5|受試者的“手寫”筆跡(來源:NPG Press)
三、解碼手寫的句子
為了測試是否能夠實時解碼完整的手寫句子,研究人員訓練了一個RNN,將神經活動轉化為描述每個字元在每個時刻被寫入的可能性的機率。研究人員使用了一個包括31個字元的有限字符集,包含了26個小寫字母,以及逗號、頓號、問號、句號和空格。為了收集RNN的訓練資料,研究人員記錄了T5按照計算機顯示器上的指示,以自己的速度“手寫”完整句子時的神經活動。在進行第一次實時評估前,研究人員共收集了242個句子,這些句子被組合起來訓練RNN。在隨後每一天的實時測試中,又收集了額外的訓練資料,並在每次評估前重新校準RNN,至最後一天總共產生了572個訓練句子(包括31472個字元)。
研究人員在5天的時間內對RNN的效能進行了評估,每天包含4個評估模組,其中包含7~10個RNN從未接受過訓練的句子(為了確保RNN不會過度適應這些句子)。T5從螢幕提示中複製每個句子,嘗試一個字母一個字母地“手寫”,而解碼的字元在RNN檢測到時實時出現在螢幕上。測試發現整體“書寫”速度非常快,平均每分鐘可寫出90個字元,平均錯誤率僅為5.4%,而當研究人員使用語言模型離線自動校正時,錯誤率進一步降低到0.89%,單詞錯誤率下降到3.4%,這與最先進的語音識別系統相當(單詞錯誤率為4~5%),具有很好的可用性。
圖7|參與者在試驗中(來源:NPG Press)
四、結語
該項研究提供了一種新的BCI通訊方法,解碼四肢癱瘓患者的快速、靈巧的運動行為,並將通訊速度提高到了每分鐘90個字元。該系統具有通用性(使用者可以表達任何句子)、易用性(完全自主節奏,眼睛可以自由移動)和足夠的準確性(94.1%的原始準確率,以及大於99%的離線準確率),具有很強的實用參考價值。
參考文獻及來源:
Willett FR, Avansino DT, Hochberg LR, et al. High-performance brain-to-text communication via handwriting. Nature. 2021;593(7858):249-254.
https://doi.org/10.1038/s41586-021-03506-2