導語
在靜止的車廂裡看到相鄰軌道上的列車開動,我們會產生一種錯覺,好像是自己在動。之所以產生錯覺,是因為視覺系統“看到”了運動,但前庭訊號卻顯示我們是靜止的。大腦要如何整合這些不同來源的訊號,並作出合理推斷?
電生理記錄顯示,大腦神經元會編碼前庭運動和視覺運動線索的組合,有些在運動方向一致時響應,有些在運動方向相反時響應。今年8月發表在 PNAS 上的一項最新研究透過訓練神經網路模型證明,這兩種型別神經元之間的權衡決定了視覺線索和前庭線索應該整合還是分離,從而幫助大腦進行因果推斷。
研究領域:因果推斷,多感官整合,人工神經網路
Stephanie Badde, Fangfang Hong, Michael S. Landy | 作者
十三維 | 譯者
梁金 | 審校
鄧一雪 | 編輯
1. 大腦如何進行因果推斷?
一隻討厭的蚊子持續煩擾著你,你準備拍打它。你看到它在你的手臂上盤旋,感覺到癢的地方卻在旁邊(圖1A)。這時應該打哪裡?數學上的最優解決方案是,對視覺和觸覺指示的位置取平均,並對更可靠、往往誤差更小的訊號給予更大加權。大量文獻表明,對於大多數模態匹配和知覺任務,人類行為符合這種感官整合的最佳處理邏輯[1-4]。
然而,如果視覺和觸覺所指示的位置非常不同,那麼癢感可能是由於另一個原因引起的,如舊蚊蟲的叮咬(圖1B)。在這種情況下,對不同感覺訊號做區隔,比如忽略觸覺,在視覺指示的位置拍打就更有意義。實施這一決定需要進行「因果推斷」(causal inference),即推斷兩個感覺訊號是來自一個共同來源還是獨立的來源。人類[5,6]和猴子[7,8]的行為就像在做因果推斷一樣,他們不會整合不太可能來自同一來源的訊號。因此一個具有挑戰性的問題是,感覺線索整合和因果推斷是如何在大腦中實現的?
圖1. 多感官整合和因果推斷。(A)當推斷出一個共同原因時,視覺和觸覺的感覺訊號被整合;(B)當推斷出單獨的來源時,使用分離的視覺訊號。(C)在跨模態下指向方向一致的神經元具有相似的調諧;(D)異向神經元的首選方向在不同模態下有所不同。這兩種型別的神經元對(E)自我運動和(F)世界運動的估計,以及(G)因果推斷判斷都有貢獻,但程度不同。(H)在貝葉斯估計中,整合的和分離的估計被結合起來,其權重等於每種因果情況的機率。
2. 多感官訊號怎麼整合?
今年8月《美國國家科學院院刊》(PNAS)發表的一篇論文中,Rideaux 等人[9]展示了不同型別的神經元之間的相互作用是如何完成最佳整合和因果推斷判斷的。在多感官感知下,他們模擬了一個一直令人困惑但也經過了充分研究的案例:視覺和自我運動的前庭訊號。這些訊號在包括背側內顳上腦區(MSTd)和頂內溝腹側區(VIP)的大腦區域匯聚。這些區域的神經元通常根據方向進行調整,即當感官線索指示某個特定方向時,相應神經元激發次數最多,訊號方向與其首選方向差異越大,激發則越少。
許多從兩種模態接收輸入*的神經元都是同調神經元(congruent neurons):它們對這兩種模態有相似的調諧(圖1C)。因此,同調神經元似乎註定要進行多感官整合(multisensory integration)[10,11]。但奇怪的是,MSTd 和 VIP 中的許多其它神經元是異向神經元(圖1D),它們對指示相反方向的視覺和前庭資訊進行調諧,例如,視覺刺激發出的向右運動和前庭的向左運動訊號[10,12]。當感覺訊號來自不同來源時,異向神經元似乎同樣有非常適合的方式進行檢測。如此一來,同調和異向神經元的協作就可能使大腦進行因果推斷[10,13]。
但直接檢驗這一假設需要同時記錄 MSTd 和 VIP 中的同調和異向神經元,以及它們所投射的神經元,這是一項幾乎不可能的任務。不過,人工神經網路的構建可以輕鬆檢測神經元在不同腦域的互聯行為。
*譯註:大腦中某些神經細胞會對視覺、聽覺和軀體感覺刺激同時起反應。一般有 50%的細胞是單通道的,但是有超過 20% 的細胞是雙通道或三通道的,可以接受多感官模態資訊輸入。
3. 人工神經網路模擬
Rideaux等人[9]對這個問題採取了一個特別聰明的方法。他們沒有構建一個由手工調諧的同調和異向神經元層構成的人工神經網路,而是訓練了一個無約束(unconstrained)的人工神經網路,來執行因果推斷判斷及對自我和世界的運動估計,然後檢查了多感官神經元的調諧和連線。這個多層前饋網路有兩組輸入:視覺和前庭。視覺輸入是自然影象的短序列,以不同速度向四個方向變換(左-右、上-下、朝向-遠離和視線旋轉)。前庭輸入來自沿著這四個軸調整的單位的速度,並略微受到噪聲的干擾。
對於每個運動方向,神經網路輸出的神經元分別確定運動速度(訓練為匹配前庭和視覺輸入速度的平均值;圖1E)、世界運動速度(訓練為匹配兩個輸入速度之差;圖1F),並進行共同來源判斷(訓練為匹配兩個輸入速度之差是大是小的二元分類;圖1G)。值得注意的是,對世界運動估計任務的多感官整合與其它領域不同,後者的整合通常與區隔形成對立,例如僅依賴一種模態(比較圖1A和B)。因此後續會帶來一個有趣的問題,即該網路將如何推廣到對空間、時間或其它特徵的多感官知覺的模擬中。
該論文的主要貢獻是,經過成功訓練後,該網路發展出了與獼猴 MSTd 和 VIP 中同調和異向相同特徵的神經元。更具體而言,在網路的「MSTd」層中,神經元對指示方向有清晰的調諧(方向沿著左-右或前-後軸速度計算),大多數神經元要麼具有一致的視覺和前庭調諧,要麼對這兩種模態表現出相反運動方向的調諧。這兩種型別的神經元都為因果推斷判斷提供了重要的輸入,證實了最初的假設,即同調和異向神經元之間的權衡對於推斷兩個訊號是否來自同一來源至關重要。
至於該網路的運動速度感知,同調細胞為自我運動估計提供了更強的輸入,異向細胞則為世界運動估計提供了更強的輸入。這兩種型別的神經元也都能對另一種知覺估計做出貢獻,只不過程度較小。先前帶有手工調諧的同調和異向神經元的計算模型已經證明,這種網路能夠執行因果推斷[13,14],不過,沒這些特性的人工神經網路亦如此[15]。與這些自上而下的方法相反,Rideaux等人[9]表明,同時進行知覺和因果推斷判斷的要求促使了同調和異向神經元的發展,表明這種神經基質(neural substrate)是計算的最佳方案。
圖2. 人工神經網路中的視覺和前庭訊號輸入,在經MSTd層三種不同方式解碼後,分別輸出對自我、場景和因果推斷的估計
該網路在感知任務中的表現實質上反映了人類和猴子在方向辨別任務中的行為[11]。成功訓練後,該網路具有較小的視覺和前庭運動輸入的跨模態差異。這些測試中的視覺刺激被更改為一組移動點集,其可靠性透過改變向同一方向移動的點的比例來操縱。網路則根據其可靠性整合視覺和前庭輸入:如果視覺輸入可靠性較低,自我運動估計與前庭輸入更一致;如果視覺輸入可靠性較高,自我運動估計則與視覺輸入更一致。值得注意的是,在訓練期間,自我運動估計得到了加強,以匹配50-50的平均視覺和前庭訊號,這就提出了一個問題,即執行可靠性加權整合的能力是來自對幾項任務的聯合訓練,還是由於網路架構。
當網路推斷出單獨的原因時,視覺輸入對自我運動估計的影響要比推斷出兩個訊號的共同來源時低。如果一種模態輸入是有噪聲的,即相同的刺激導致不同試驗的內部測量略有不同,這種跨模態偏向的差異會自動出現[6]。然而以目前的形式,該網路還無法重現因果推斷的以下行為特徵:當訊號更不一致,即不太可能從同一來源出現時,跨模態的偏差為何會減少。
鑑於該模型是嚴格的前饋,因果推斷及自我和世界的運動估計有單獨的輸出,該模型根本不能讓因果推斷判斷影響自我運動的估計。換句話說,模型無法忽視我們介紹性示例中舊蚊子叮咬的撓癢感。相比之下,貝葉斯因果推斷模型[6]則複製了跨模態偏差對兩個訊號之間差異的非線性依賴性[6,16]。他們透過將整合和分離的估計值相加來實現這一目標,並分別以共同和單獨來源的推斷機率加權(圖1H)。在這種觀點下,Rideaux等人[9]的神經網路模型包含了知覺兩階段過程的第一階段。
事實上,多感官背景下的人類大腦活動,對整合的、分離的、及最終合併的估計在獨立表徵上是一致的[17,18]。貝葉斯因果推斷方法的另一個關鍵組成部分是假設的共同來源的先驗機率。在 Rideaux 等人的模型[9]中,這種先驗可能反映在多感官 MSTd 層和輸出層之間的連線權重中。然而,這種先驗共因隨著實驗環境的變化而變化[19,20],表明還需要對因果推斷過程進行額外的輸入。因此,一個更完整的多感官整合和因果推斷模型,還將需要為同源和分離源的知覺及靈活的先驗共源估計提供表徵空間。
總之,Rideaux等人[9]為因果推斷中同調和異向神經元的作用這一難題提供了令人信服的解決方案。他們透過訓練一個人工神經網路,藉由促使同調和反向神經元同時發展,得出了對自我和世界的運動估計及相應的因果推斷判斷。不過大腦是否以這種簡單的前饋方式實現這推斷,以及因果推斷是如何參與知覺判斷的,依然是未來重要的問題。此外在個體發育過程中,是否需要感覺體驗來發展異向神經元,或者這種人工神經網路訓練所援引的過程是否在進化過程中發揮了作用,將同樣是令人非常著迷的探索方向。
本文來自BioArtMED微信公眾號,更多生物領域前沿資訊等你來發現!
轉載須知
【原創文章】BioArtMED原創文章,歡迎個人轉發分享,未經允許禁止轉載,所刊登的所有作品的著作權均為BioArtMED所擁有。BioArtMED保留所有法定權利,違者必究。