泛亞歐語系的起源和擴散
導 讀
在漫長的歲月裡,人類與人類相遇、交流、分離,他們的語言也碰撞、融合、分化。最近,由語言學家、考古學家和遺傳學家合作的一項研究,發現說日語、韓語、突厥語、蒙古語和通古斯語的人們有著共同的基因學和語言學上的祖先——他們曾於9000年前生活在今天中國東北部的西遼河流域。
撰文 | 王一葦
責編 | 陳曉雪
● ● ●
語言學家將世界上的語言按演化關係分為不同的語系。其中一種分類叫 “泛歐亞語系”,包括通古斯語族、蒙古語族、突厥語族、日本-琉球語(族)和朝韓語(族)。使用這些語言的居民分佈在整個歐亞大陸,人口上億。
近日,一項歷時六年、集結11個國家學者的三學科交叉研究發現,泛歐亞語系的人群有一個共同的祖先:他們曾經居住在距今約9000年前——也就是新石器時代的中國東北部。
2021年11月11日,《自然》雜誌發表了這項研究 [1]。該研究認為,青銅時代之後東北亞各地區間頻繁的語言交流,掩蓋了這些語言在本質上同源的事實。而實際上,新石器時代早期,就有中國東北的農民穿越東北亞大陸,進入日本、韓國所在的地域。他們帶去了自身的基因和文化,也帶去了原始的語言。
“我們的研究顯示,說日語、韓語、突厥語、蒙古語和通古斯語的人們有共同的基因和語言學上的祖先,他們生活在中國東北部的西遼河流域。” 論文的通訊作者、德國馬普人類歷史科學研究所教授 Martine Robbeets 說。她和研究團隊還透過語言學和考古學研究指出,農業在語言的擴散中發揮了重要作用。
圖1 東北亞語言、農業和遺傳擴張的融合。紅色為阿穆爾血統,綠色為黃河血統,藍色為繩文血統。紅色箭頭表示新石器時代種植粟的農民向東遷移,將朝鮮語和通古斯語帶到指定地區。綠色箭頭標誌著新石器時代晚期和青銅時代稻作農業的融合,將日本語從韓國帶到了日本 | 圖源[1]
北京大學考古文博學院副教授張海認為,這是一項真正意義上的文理交叉的研究。“尤其是把語言學和考古學用量化的方法表述,採用跟古DNA一樣的分析方法,貝葉斯系統發生學方法,將語言學、考古學與古DNA連結起來,討論一個關鍵性的科學問題。”
“(這項研究)為統一的泛歐亞語系的存在提供了計算語言學的證據支援,”澳大利亞國立大學考古和人類學學院榮譽退休教授 Peter Bellwood 在隨刊釋出的論文述評中寫道 [2]。長期以來,關於泛歐亞語系的源頭爭議頗多,他認為這項研究對釐清爭議作出了 “可喜的貢獻”。
古DNA研究者們則對文章中提供的新基因證據感到興奮。
“這篇研究新產生了來自韓國日本琉球群島新石器時代及以後的古基因組,這些基因組的發表填補了目前朝鮮半島琉球群島等地古DNA資料庫的空白。” 德國馬普人類歷史科學研究所博士後王軻透過郵件告訴《知識分子》。
“韓國很有意思,” 中國科學院古脊椎動物與古人類研究所研究員付巧妹說,“相比日本,它很早的(基因組成)就已經不一樣了,說明(東亞北部的)影響更早是在韓國,較晚的時候才到日本。”
“泛歐亞語系” 的起源之謎
Martine Robbeets 是 “泛歐亞語系” 概念的提出者之一,這一概念指的是指東起太平洋,西至波羅的海、黑海和地中海的地理上相鄰的一批語言 [3]。但並非所有語言學家都認同這一概念。
泛歐亞語系的概念衍生於早在18世紀就出現的 “阿爾泰語系”(altaic languages)。阿爾泰語系將歐亞大陸的蒙古、突厥和通古斯等幾個語族依照相近地理位置歸類,認為它們來自同一個源頭。後來的 “泛歐亞語系” 則在此基礎上加入了日本-琉球語族和朝韓語族,認為這些語言的人群都有共同的祖先。Robbeets說,這是因為語言學研究結果證實,這五個語族的語言存在共同的基本詞彙。
圖2 泛亞歐語系的起源和擴散 | 圖源[2]
無論是 “阿爾泰語系” 的概念,還是 “泛歐亞語系” 的內涵,在語言學界均有反對聲音。一些學者認為,這些語言(泛歐亞語系涉及的五個語族)並非同源,只是存在大量交流產生的相似詞彙;另一些則認為,日韓語同源,而兩者與其他幾個語族並不同源。
“他們說的都很對,只是是在不同層面上看問題,” Robbeets說。“我們之所以在這一問題上有這麼大的爭議,很大的原因是借用(borrowing)的現象非常普遍……但它們一定程度上掩蓋了極少量的由繼承(inherited)得到的詞彙。” 她也認同日韓同源的說法,但認為應該將比較的視野擴大到泛歐亞語系。
Robbeets認為,起源問題之所以難有定論,真正的問題是很難確定語言學者們提出的證據是否確鑿。“問題並不是沒有足夠的證據,而是人們的設想,甚至是幻想太多,虛構多於事實。”
尋找語言的原型
圖3 語言學者Robbeets教授在比利時的家中與《知識分子》影片連線。她笑稱自己是埋案工作“扶手椅學者”。歐洲正午耀眼的陽光下,她背後是滿滿一架子色彩斑斕的書。隨便抽出一本,可能就記載著世界某個角落不為人知的當地語言。
Martine Robbeets 日常的工作就是伏在案頭,從這些書籍記載的不同語言中抽取各種元素,分析、比對。
她自己精通或掌握近10種語言,包括比利時當地的三種方言、英語、日語、韓語,一些簡單的俄語、突厥語和蒙古語。這些語言大多是在她赴日、韓、俄等地學習和研究過程中習得的。
Robbeets說,語言中有一類詞相對來說不具有文化含義,它們代表一些最簡單的概念,比如house和food。她將之稱為 “基本詞彙”。由於借用詞彙很多時候與文化相關,研究基本詞彙在不同語言中的分佈能夠很好地避開借用詞彙的影響。語言學家們在長時間的摸索中已經列出了一張由100個片語成的 “基本詞彙” 清單,方便在比較不同語言時使用。
即便如此,比較不同語言的基本詞彙並不簡單。2003年寫博士論文時,Robbeets收集了語言學家們提出的10,000個認為是泛歐亞語系的詞源,這些詞源對應2000個詞,也就是說,每個詞都有5個左右可能的詞源,究竟哪個才是真正的詞源呢?
“當我收集了那麼多證據,反而覺得這一切都很虛,所以我當時真正的目標是去證明泛歐亞語系的語族之間沒有關聯。” 她一個一個地檢查詞彙,用語言學的邏輯判斷這個詞是否能通用到真正算作詞源,如果有一絲值得懷疑的地方就刪掉。最終,她將10,000個詞縮小到300個,“我嘗試了所有方法,但沒有辦法再拒絕這些詞了。”為了確認這一點,她又比對了這些詞的發音,發現它們在發音上也遵循相應規律。
除了使用詞源,她同時也透過詞態和詞綴等詞語形態學的方法確認,發現這些詞在形態上也互相關聯。因此她確信,這些詞是泛歐亞語系的同源詞匯。
在此次發表的論文中,Robbeets和同事們選取了泛歐亞語系的五個分支裡的98種語言,在每種語言裡尋找254個詞源詞,“有時候能在三個分支裡找到,有時候四個,” 她說,“我們的資料庫非常龐大。”
圖4 Robbeets舉例說明了一個詞源詞“wood”(木)的比較過程。在2018年的論文中,她選取的詞義更為寬泛,因而得出的語族間的正相關關係更強,而2021年的此次研究中,她對詞語的選擇更精細了,儘管正相關關係減弱,但她獲得了更豐富的資料點。
然後,他們用統計學方法(貝葉斯系統發生學方法,Bayesian Phylogenetic Analysis)來分析這些詞的發展過程。分析結果指出,泛歐亞語系的 “原型語”(Proto-Transeurasian language)大約在距今9181年前開始分化,6811年前阿爾泰語系從中分出,5458年前日本語族和朝韓語族分出,4491年前蒙古語族和通古斯語族分出。
在語言學的邊界之外
“人類的語言有10萬年曆史,而語言學能夠研究的也只有1萬年而已,” Robbeets說。
在從新石器時代到現在的這一萬年的時間裡,不同語言的演化有快有慢,變化有大有小。傳統語言學在假設變化勻速的基礎上推算語言的分化,必然有種種不準確處。
“這就是為什麼遺傳學方法非常有用,” Robbeets說。大約15年前,語言學家們開始將基因檢測方法結合到語言學進化樹的建立中,改進了預測。
在過去20年的研究經歷中,Robbeets逐漸意識到,語言學分析雖然告訴了她泛歐亞人群的起源,但無法提供更多資訊:他們曾經居住在何處?什麼時候開始遷移?如何遷移?為什麼分散到東北亞各地?引入考古學和遺傳學能幫助解決這些問題。
“語言學本身並不能最終解決人類歷史科學中的重大問題,但結合遺傳學和考古學,它可以增加某些情景的可信度和有效性。” 她說。
同時使用語言學、考古學和遺傳學方法做研究並非這篇論文首創,但如此大規模的並行研究確實少見。Robbeets表示,這次研究提出的跨學科合作模式仍然在探索階段,她希望能延續這一模式,以考古學和遺傳學方法擴充套件語言學研究的邊界。
六年前,Robbeets向歐盟申請了一項200萬歐元的跨學科研究基金,並用自己曾經在日本、韓國求學建立的人脈關係組建了一個龐大的團隊。2019年,她還到訪中國,拜訪了吉林大學生命科學學院的崔銀秋教授。“非常有才華的學者”,她說,崔銀秋建議合作,並讓自己的學生寧超加入Robbeets的團隊,赴德國開展研究。
寧超目前已在北京大學考古文博學院任職。在德國馬普人類歷史科學研究所的日子裡,他負責這項研究中大部分的古DNA資料收集工作。他收集了東北亞所有已經發表的古代基因組資料。
“跨國多學科的團隊組建是非常不容易的,首先我們要了解不同學科,包括考古、語言和DNA,國際上都有哪些科學家在做與本課題相關的研究,其次是要確保哪些科學家對交叉學科研究話題感興趣,而且還要尊重其它不同學科的研究成果。” 在給《知識分子》的郵件回覆中,寧超說。
在六年時間裡,研究團隊多次舉辦線上以及線下的交叉學科會議,分別呈現不同學科的最新進展和發現,然後再進行綜合性探討。他們將這種研究方法稱為 “triangulation”(三角測量法)。
Robbeets強調,雖然團隊從三個學科方向開展研究,但研究過程相對獨立,資料的收集、分析和結果都單獨進行,因此避免了 “內迴圈”,即互為邏輯結果的可能性。只有在研究的最後階段,三個學科的推論才會透過不同變數相互對映,比較評估證據的融合程度,包括相關度、不一致性、不確定性和可能的偏見。
在比較三個學科結果後,文章得出結論,跨歐亞語言的起源可以追溯到新石器時代東北亞最早開始種植粟的人群。新石器時代早期到中期,種植粟的農民從西遼河擴散到鄰近地區。而新石器時代晚期、青銅器和鐵器時代,種植粟的農民逐漸與黃河、歐亞西部和繩紋人口混合,並在耕種中加入了水稻、歐亞西部農作物和畜牧業。
跨學科合作,語言學研究的未來?
張海認為,研究中泛歐亞語系人群起源於中國東北西遼河流域的早期旱作農業人群,泛歐亞草原的遊牧為特徵的人群起源於定居農業的擴散的結論,“顛覆了過去的認識。” Peter Bellwood 也在述評中表達了類似觀點。
研究古DNA的付巧妹認為,雖然從基因證據上得出了起源結論,但具體的遷移是如何發生的,農業可能只是其中一個因素,實際上的原因很可能更為複雜,尤其是越為晚近的年代,文化對遷移和語言的影響會越強。
Robbeets對此回應稱,她認為農業是一個重要因素,但並未排除其他因素。例如,其中一個她認為需要更多研究的因素是氣候變化。在過往研究中,氣候變化的時間似乎和語言分化的時間有不錯的相關性。
而對於泛歐亞語系人群和其他語系,如同樣活動在亞洲大地上的漢藏語系人群,是什麼樣的關係,仍然是個未解之謎。
“該文章提出的問題更重要,” 張海說,“第一,仍然有一處關鍵時段古DNA樣品的缺失,即距今8000年的西遼河流域的旱作農業人群。第二,泛歐亞語系與漢藏語系應該是兩個不同的來源,如果泛歐亞語系與漢藏語系都是旱作農業基礎,那麼這兩個語系有不同的起源嗎?”
在問到有關泛歐亞語系和漢藏語系關係的問題時,Robbeets說,她認為,兩個語系有不同的起源,一個發源於西遼河流域,一個發源於黃河流域,但在史前時期有語言借用的現象,而研究這種借用是她下一步要做的事之一。“我認為了解這兩個農民社群如何互相影響,以及這在遠古時期傳遞的訊號是什麼,是非常必要的,” 她說。
她在一個月前剛剛招募了一位來自中國的博士生,在未來3-4年內將專門研究兩個語系間語言借用的問題。
她希望在後續研究中繼續交叉學科合作。在此次論文研究中,她說難度最大的就是將各種不同的證據整合到一起。
“ ‘三角測量法’ 這種方式仍然不夠完備,還在發展中,” 她說,除了需要更多資金支援,她也計劃舉辦更多的學術會議來探討這一合作應該如何開展。
“目前我們還只揭開了一點點面紗,未來仍然有許多要做的,” 她說,“我也希望未來這個領域能擴充套件得很好。”
致 謝
感謝莫斯科大學生物系在讀博士生郭林、復旦大學現代語言學研究院研究員張夢翰對本文的幫助。
參考文獻:
[1]https://www.nature.com/articles/s41586-021-04108-8
[2]https://www.nature.com/articles/d41586-021-03037-w
[3]https://www.thepaper.cn/newsDetail_forward_10403243