本文由"腦機介面社群"團隊原創編譯,轉載請聯絡授權
本文是Pavithra Rajeswaran和 Amy L. Orsborn兩人在Nature上發表的一篇觀點評論,主要關於Willett等人在意念手寫字上的研究。
我們思考的速度比交流的速度要快得多——當我們在使用智慧手機鍵盤時,很多人就會意識到這一點。對於重度癱瘓的人來說,這種資訊瓶頸更為極端。Willett等人在《Nature》雜誌上發表了一篇論文[1],報告了一種用於打字的腦機介面(BCI)的開發,這種介面最終可以讓癱瘓的人以他們的思維速度進行交流。
市售的輔助打字裝置主要依賴於使用該裝置的人能夠進行眼球運動或發出語音命令。眼動追蹤鍵盤可以讓癱瘓患者每分鐘輸入47.5個字元[2],比沒有類似損傷的人每分鐘輸入115個字元的速度要慢。然而,這些技術不適用於因癱瘓而影響眼球運動或發聲的人。而且該技術有侷限性。例如,當你用眼睛打字時,你很難一邊打字,一邊閱讀一封電子郵件。
相比之下,腦機介面透過破譯大腦活動模式來恢復功能。這樣的介面已經成功地為癱瘓的人恢復了簡單的運動——比如伸手和操縱大型物體[3-7]。透過直接利用神經處理,BCI有望為廣泛的人群無縫恢復功能。
但是,到目前為止,用於打字的BCI 還無法與簡單的輔助技術(例如眼動儀)競爭。一個原因是打字是一項複雜的任務。在英語中,我們從26個拉丁字母中選擇。基於使用者的神經活動,構建一種分類演算法來預測使用者想要選擇哪個字母,這是一項挑戰,因此 BCI 間接解決了打字任務。例如,非侵入性 BCI 拼寫器向用戶呈現幾個連續的視覺提示,並分析對所有提示的神經反應,以確定所需的字母[8]。最成功的有創BCI(iBCI;其中一種方法是將電極植入大腦中)用於打字,使使用者可以控制游標選擇按鍵,打字速度可達到每分鐘40個字元[6]。但是這些 iBCI 與非侵入式眼動儀一樣,會佔據使用者的視覺注意力,並不能提供明顯更快的打字速度。
Willett和他的同事開發了一種不同的方法,直接解決了iBCI中的打字任務,從而在效能和功能方面遠遠超越了過去的裝置。這種方法可以在使用者想象自己在以自己的速度書寫時進行解碼字母(圖1)。
這種方法需要一種分類演算法來預測癱瘓使用者正在嘗試書寫的26個字母或5個標點符號中的哪一個,這種方法在無法觀察到癱瘓使用者的這些嘗試並在使用者選擇時進行預測,這是一項具有挑戰性的壯舉。為了克服這個挑戰,Willett等人首先重新利用了另一種型別的演算法——一種最初為語音識別而開發的機器學習演算法。這使得他們能夠僅根據神經活動來估計使用者何時開始嘗試編寫一個字元。每次他們的研究參與者想象一個給定的角色時,產生的神經活動模式是非常一致的。從這些資訊中,研究小組產生了一個帶有標籤的資料集,其中包含了與每個字元對應的神經活動模式。他們用這個資料集來訓練分類演算法。
為了在這樣的高維空間中實現精確的分類,Willett和同事的分類演算法使用了當前的機器學習方法,以及一種稱為迴圈神經網路(RNN)的人工神經網路,該神經網路特別擅長預測順序資料。利用神經網路的強大功能需要大量的訓練資料,但這些資料在神經介面上是有限的,因為很少有使用者願意想象持續幾個小時的寫作。作者使用一種被稱為資料增強的方法解決了這個問題,在這種方法中,參與者先前生成的神經活動模式被用來生成人工句子來訓練RNN。他們還透過在神經活動模式中引入人工變異性來擴大訓練資料,以模仿人類大腦中自然發生的變化。這種可變性可以使RNN BCIs更加健壯[9]。
藉助這些方法,Willett和同事的演算法提供了令人印象深刻的精確分類,選擇正確字元的機率達到94.1%。透過加入預測語言模型(類似於智慧手機上的自動糾錯功能),他們將準確率進一步提高到99.1%。參與者能夠以每分鐘90個字元的速度準確打字,比他使用過去的iBCI時的打字速度提高了一倍。
然而,這項研究的成就不僅僅是機器學習。解碼器的效能最終取決於輸入的資料。研究人員發現,與嘗試手寫相關的神經資料特別適合打字任務和分類。事實上,即使使用更簡單的線性演算法也可以很好地對筆跡進行分類,這表明神經資料本身在作者方法的成功中發揮了重要作用。
透過模擬分類演算法在測試不同型別的神經活動時的表現,Willett等人得到了關鍵的發現-手寫時的神經活動比使用者試圖畫直線時的神經活動有更多的時間可變性,而這種可變性實際上使分類更容易。這些知識應該為未來的 BCI 提供資訊。也許與直覺相反,解碼複雜行為而不是簡單行為可能更有利,尤其是對於分類任務。
Willett 和同事的研究開始兌現 BCI 技術的承諾。iBCI 需要提供巨大的效能和可用性優勢,以證明與將電極植入大腦相關的費用和風險是合理的。重要的是,打字速度並不是決定是否採用該技術的唯一因素——該方法的壽命和穩健性也需要分析。作者提出了有希望的證據,證明他們的演算法在有限的訓練資料下表現良好,但可能需要進一步的研究,以使裝置在神經活動模式發生變化時能夠在其整個生命週期內保持效能。開展研究以測試該方法是否可以推廣到其他使用者和實驗室外的環境也至關重要。
另一個問題是,這種方法將如何擴充套件並翻譯成其他語言。Willett 及其同事的模擬強調,拉丁字母表中的幾個字元的書寫方式相似(例如 r、v 和 u),因此比其他字元更難分類。我們中的一個 (PR) 說泰米爾語,泰米爾語有247個字元,通常是非常密切相關的,所以可能很難分類。而且,對於那些還沒有很好地在機器學習預測語言模型中表現出來的語言,翻譯問題尤其重要。
儘管還有很多工作要做,Willett和同事的研究是一個里程碑,它拓寬了iBCI應用的界限。因為它使用了快速改進的機器學習方法,所以插入最新模型為未來的改進提供了一條有希望的途徑。該團隊還將公開其資料集,這將加速進展。這兩位作者的方法使神經介面的快速通訊更接近於現實。
參考
Nature封面:腦機介面重大突破!意念手寫字速度破紀錄!
doi: https://doi.org/10.1038/d41586-021-00776-8
1.Willett, F. R., Avansino, D. T., Hochberg, L. R., Henderson, J. M. & Shenoy, K. V. Nature 593, 249–254 (2021).
2.Mott, M. E., Williams, S., Wobbrock, J. O. & Morris, M. R. in Proc. 2017 CHI Conf. Human Factors in Computing Systems 2558–2570 (ACM, 2017).
3.Hochberg, L. R. et al. Nature 442, 164–171 (2006).
4.Hochberg, L. R. et al. Nature 485, 372–375 (2012).
5.Collinger, J. L. et al. Lancet 381, 557–564 (2013).
6.Pandarinath, C. et al. eLife 6, e18554 (2017).
7.Ajiboye, A. B. et al. Lancet 389, 1821–1830 (2017).
8.Rezeika, A. et al. Brain Sci. 8, 57 (2018).
9.Sussillo, D., Stavisky, S. D., Kao, J. C., Ryu, S. I. & Shenoy, K. V. Nature Commun. 7, 13749 (2016).