來源:quantamagazine
撰文:Anil Ananthaswamy
翻譯:任天
科學家透過對神經網路的研究發現,大腦是一臺名副其實的“預測機器”。這樣的工作方式使它們能節省許多能量。
我們的大腦包裹在硬質的顱骨中,是一團重約1.4至1.5千克組織。長期以來,關於大腦如何透過感覺來獲得感知的問題,一直令科學家感到困惑。大量的證據和數十年的持續研究表明,大腦並不能像玩拼圖遊戲那樣,將感官資訊簡單地組合起來,以此感知周圍的環境。我們可以透過一個事實來證明這一點,大腦可以根據進入眼睛的光線資訊構建出一個場景,即使這些資訊既嘈雜且模糊。
當看到一個模糊的影象時,我們會依賴背景來獲得感知資訊。一些神經科學家認為,這證明了大腦能透過對預期事件的預測,自上而下地將感知資訊組合起來。
因此,許多神經科學家轉而將大腦視為一臺“預測機器”。透過預測性的處理過程,大腦利用其對世界的先驗知識,對輸入的感官資訊做出原因推斷或假設。正是這些假設,而不是感官輸入本身,在我們的腦海中產生了感知。對大腦來說,輸入的資訊越模糊,它對先驗知識的依賴就越大。
預測性處理框架的優美之處在於,它擁有相當強的能力來解釋許多不同系統中的大量現象。
儘管有越來越多的神經科學證據支援了這一觀點,但主要是間接證據,而且存在其他解釋的可能性。如果你仔細審視人類的認知神經科學和神經成像研究,就會發現很多證據,但都是極為隱性、間接的證據。
因此,研究人員開始轉向計算模型,試圖理解和驗證“預測性大腦”的想法。計算神經科學家已經建立了人工神經網路,其設計靈感來自生物神經元的行為,可以學習對輸入資訊做出預測。這些模型顯示出一些不可思議的能力,似乎可以模模擬正的大腦。利用這些模型所做的實驗甚至暗示,大腦必須進化成預測機器,才能滿足能量的限制。
20世紀中期的認知心理學家利用這張著名的鴨兔影象來研究人類的感知能力
隨著計算模型的激增,研究活體動物的神經科學家也越來越確信,大腦已經學會了推斷感官輸入背後的原因。大腦是如何做到這一點的?研究者尚不清楚其中的具體細節,但總體思路正變得越來越清晰。
知覺中的無意識推論
一開始,“預測性處理”似乎是一種與直覺相悖的複雜感知機制,但由於缺少其他有力的解釋,科學家長期以來一直都對其青睞有加。甚至在一千年前,阿拉伯天文學家和數學家哈桑·本·海什木在他的《光學書》(Book of Optics)中就提出了該機制的一種形式,從各個方面對視覺進行了解釋。19世紀60年代,德國物理學家、生理學家兼醫生赫爾曼·馮·亥姆霍茲提出,大腦會推斷感官輸入資訊的外部原因,而不是根據這些輸入資訊“自下而上”地構建感知。
亥姆霍茲闡述了“無意識推論”的概念,來解釋雙穩態(或多穩態)知覺;在這種知覺中,大腦可以用不止一種方式感知同一個影象。例如,當看到那幅廣為人知的鴨兔影象時,我們的知覺就會在這兩種動物影象之間來回切換。也就是說,影象可以透過兩種方式來看,或是鴨子或是兔子。透過諸如此類的例子,亥姆霍茲斷言,由於眼睛視網膜上形成的影象並沒有改變,因此這種感知必然是一個自上而下的無意識推理過程的結果。
在20世紀,認知心理學家繼續透過案例來說明感知是一個積極構建的過程,利用了自下而上的感覺和自上而下的概念輸入。1980年,英國心理學家理查德·蘭頓·格里高利發表了一篇頗具影響力的論文,題為《作為假設的感知》。文中認為,感知錯覺本質上是大腦對感官印象成因的錯誤猜測。同一時期,計算機視覺科學家在沒有“生成”模型作為參考的情況下,試圖使用自下而上的重建方式使計算機能“看到東西”。但他們的努力遇到了挫折。
試圖在沒有生成模型的情況下理解資料註定會失敗——人們所能做的就是對資料中的模式做出陳述。
然而,儘管研究者對“預測性處理”的接受程度有所提高,但關於它如何在大腦中實現的問題仍未解決。目前有一個頗受歡迎的模型,稱為“預測編碼”,認為大腦中存在資訊處理的層級結構。最高層級代表最抽象、最高階的知識(比如感知到陰影中有一條蛇)。該層級透過向下傳送訊號來預測下一層級的神經活動;下一層級則將其實際活動與上一層級的預測進行比較。如果不匹配,該層級將產生流向上層的誤差訊號,以便較高層級更新其內部的表徵結果。
在每一對連續的層級之間會同時發生這一過程,一直到最下面接收實際感覺輸入的層級。從外界接收到的資訊與預期資訊之間的任何差異都會產生一個誤差訊號,並將其傳回層級結構。最終,最高的層級會更新其假設(發現陰影中其實不是一條蛇,而是一條繩子)。
總的來說,預測編碼的概念是指大腦基本上由兩個神經元群構成,尤其是當這一概念被應用到大腦皮層時。一個神經元群負責對當前感知資訊的最合理預測進行編碼,另一個則負責發出預測中的誤差訊號。
1999年,計算機科學家拉傑什·拉奧和達納·巴拉德(當時分別在索爾克生物研究所和羅切斯特大學任職)建立了一個強大的預測編碼計算模型,其中具有明確用於預測和糾錯的神經元。他們模擬了靈長類動物大腦視覺處理系統——由負責識別面孔和物體的層級組織區域組成——的部分通路,並表示該模型可以重現靈長類視覺系統的一些不尋常行為。
不過,在這項工作完成時,現代深層神經網路還沒有出現。深層神經網路有一個輸入層和一個輸出層,以及夾在這兩層之間的多個隱藏層。到2012年,神經科學家開始使用深層神經網路來模擬靈長類視覺皮層的腹側流。但幾乎所有這些模型都是前饋網路,資訊都只從輸入端流向輸出端。大腦顯然不是一個純粹的前饋機器,大腦中有很多反饋資訊,基本上與前饋訊號一樣多。
因此,神經科學家轉向了另一種模型:迴圈神經網路(recurrent neural network,又稱遞迴神經網路,簡稱RNN)。這些神經網路具有一些使其成為模擬大腦“理想基質”的特徵。迴圈神經網路的神經元之間既有前饋又有反饋連線,而且它們有獨立於輸入的持續活動。在很長一段時間——基本上可以說是永遠——之內產生這些動態的能力,正是這些網路隨後可以被訓練的原因。
基於預測的感知。在解釋大腦的感知機制時,“自下而上”的感知模型(左)並不如“自上而下”的模型,後者具有由神經元組成的層級結構,使大腦能對即將接收到的感官刺激做出預測。
預測可以節能
迴圈神經網路引起了哈佛大學科學家的注意。2016年,研究團隊展示了一個學會預測影片序列中下一幀的迴圈神經網路。他們將其稱為“PredNet”。這個迴圈神經網路的設計原理與預測編碼是一致的,是一個4層的層級結構,每一層都會預測來自下一層的輸入資訊,如果不匹配,就會向上層傳送誤差訊號。
然後,他們用安裝在車載攝像頭拍攝的城市街道影片訓練該網路。PredNet學會了持續預測影片序列中的下一幀,這非常酷。
他們的下一步是將PredNet與神經科學聯絡起來。2020年,研究團隊撰文稱,PredNet顯示了猴子大腦對意外刺激做出反應時的行為,包括一些在簡單前饋網路中難以複製的行為。
這是一項了不起的工作,無論是拉奧和巴拉德的模型,還是PredNet,都明確加入了用於預測和糾錯的人工神經元,以及能做出自上而下的準確預測以抑制錯誤神經元的機制。但如果沒有明確指定這些神經元會如何呢?研究人員想知道,所有這些加進去的構造約束是否真的有必要,或者我們是否可以透過更簡單的方法把它們去掉。
哈佛大學的威廉·洛特和他的博士論文導師共同建立了PredNet,這是一個迴圈神經網路,在結構設計上可用於執行預測編碼。
首先能到想的是,神經通訊是十分耗能的,畢竟大腦是身體中消耗能量最多的器官。因此,儲存能量的需要可能會限制生物體中任何正在進化的神經網路行為。
研究人員決定試一下,看看在需要用盡可能少的能量完成任務的迴圈神經網路中,是否會出現預測編碼的計算機制。他們認為,在神經網路中,人造神經元之間的連線強度(也被稱為“權重”),可以作為突觸傳遞的代理,而突觸傳遞是生物神經元消耗大量能量的原因。如果能減少人工單元之間的權重,就意味著你能用更少的能量交流,這等同於將突觸傳遞最小化。
然後,研究團隊用多個升序並頭尾相接的連續數字序列來訓練RNN,包括1234567890、3456789012、6789012345等等。每個數字都以28×28畫素的影象形式顯示給迴圈神經網路。該網路學習了一個從序列中任意位置開始預測下一位數字的內部模型,但被要求以最小的單元權重來完成這一任務,類似於生物神經系統中低水平的神經活動。
在這些條件下,這一迴圈神經網路學會了預測序列中的下一個數字。它的一些人工神經元充當了“預測單元”,代表一個預期輸入的模型。其他神經元則充當“誤差單元”,當預測單元尚未學會正確預測下一個數字時,它們最為活躍;而當預測單元開始正確做出預測時,這些誤差單元就被抑制住了。至關重要的是,該網路之所以能形成這一結構,是因為它必須儘量減少能量消耗。它只是學會了人們通常明確內置於系統中的那種抑制機制,系統是即開即用的,將其作為一件緊急事務來做,並達到高效節能。
當研究人員向PredNet展示影片序列時(上),這個具有預測編碼結構的迴圈神經網路學會了預測下一幀影象(下)。
因此,研究人員得出的結論是:最大限度減少能耗的神經網路最終將實現某種預測性處理。這反過來也說明了,生物大腦可能也在做著同樣的事情。
這是一個非常好的例子,說明了自上而下的約束,如能耗最小化,會如何間接地導致某個特定的功能,比如預測編碼。迴圈神經網路中特定誤差單元和預測單元的出現,是否可能是網路邊緣的神經元接收輸入的意外結果。如果輸入資訊遍佈整個網路,你不會發現誤差單位和預測單位之間有什麼區別,但你仍然會發現預測活動。
大腦行為的統一框架
儘管從這些計算研究中獲得的見解看起來很有說服力,但最終,只有來自活體大腦的證據才能證明大腦中確實存在預測處理過程。布萊克·理查茲是加拿大麥吉爾大學和魁北克人工智慧研究所的神經科學家兼計算機科學家,他和同事們提出了一些明確的假設,描述了大腦在學習預測意外事件時應該“看到”什麼。
為了驗證這些假設,他們求助於美國西雅圖艾倫腦科學研究所的研究人員,後者在小鼠身上進行了一些實驗,同時監測它們大腦中的神經活動。特別讓研究者感興趣的是,大腦新皮層中的某些錐體神經元,被認為在解剖學上很適合進行預測處理。它們既可以接收來自附近神經元的自下而上的感覺訊號(透過向它們的細胞體輸入訊號),也可以接收來自更遙遠神經元的自上而下的預測訊號(透過它們的頂樹突)。
大腦中的錐體神經元似乎在解剖學上很適合進行預測性處理,因為它們可以分別整合來自鄰近神經元的“自下而上”訊號,以及來自較遠神經元的“自上而下”訊號。
研究人員向小鼠展示了許多加博爾光斑(由明暗條紋組成)序列,每個序列中的4個光斑都有大致相同的朝向。小鼠逐漸適應了這些序列,然後,研究人員插入了一個意外事件:第4個加博爾光斑隨機旋轉到另一個方向。一開始,這些小鼠顯得很驚訝,但隨著時間的推移,它們也開始期待驚喜。實驗期間,研究人員一直在觀察小鼠大腦的活動。
研究人員發現,許多神經元對預期和意外刺激的反應是不同的。至關重要的是,在實驗的第一天,這種反差在區域性的、自下而上的訊號中非常強烈;但在第二天和第三天,反差就減弱了。這表明,在預測性處理的背景下,隨著刺激變得不那麼令人驚訝,新形成的自上而下的預期開始抑制對傳入感覺資訊的反應。
與此同時,頂樹突的情況恰好相反:它們對意外刺激的反應差異隨著時間的推移而增強。神經迴路似乎正在學習更好地表徵這些意外事件的性質,以便更好地預測下一次事件。這項研究進一步支援了這樣一種觀點,即新大腦皮層正在進行著預測學習或預測編碼。
有時,對神經元活動或動物行為的個別觀察結果也可以用其他大腦模型來解釋。例如,神經元對相同輸入的反應減弱,可能只是一個適應過程,而不必解釋為誤差單元受到抑制。不過,這最後可能會導致你要對許多不同現象一一做出解釋。相比之下,預測性處理提供了一個統一的框架,可以一次性解釋許多現象,因此是一個很有吸引力的大腦工作理論。