赫爾辛基--(美國商業資訊)--據芬蘭司法部委託Utopia Analytics進行的一項研究,網上仇恨言論最容易出現在論壇上。該報告發現,97%的已識別仇恨言論資訊來自於論壇。隨後的平臺型別是佔2.5%的Twitter資訊和佔0.2%的Instagram資訊。而部落格、新聞評論和公開的Facebook資訊佔所有已識別仇恨言論的比例不到0.02%。這些資料集不包括私人討論,如Facebook組或帳戶。
該專案是芬蘭司法部 “Facts Against Hate”計劃的組成部分,旨在測試人工智慧在網路環境中識別仇恨言論的能力。該方法將人類評估與機器學習相結合。專案的一個關鍵目標是找到仇恨言論的主要渠道,並識別平臺之間的差異。
仇恨言論的定義基於社會科學的學術研究結果。該定義透過如下過程完成:首先確定仇恨言論的類別,然後使用類別資料在網路資訊資料集中人工識別出仇恨言論的例子。這些標註隨後被用作Utopia AI Moderator的訓練資料,這是一個利用文字分析和機器學習且與語言無關的工具。該專案的資料集由2020年9月至10月以芬蘭語發表的1,200萬條線上評論和帖子構成。
結果顯示,芬蘭公開的社交媒體平臺上每月出現大約15萬條包含仇恨言論的資訊,約佔所有資訊的1.8%。
在國際公共社交媒體平臺中,Twitter似乎最為突出,有7,450條資訊被認定為仇恨言論,佔所有推文的0.14%。轉發在傳播這些資訊中發揮了重要作用:所有仇恨言論推文中有39%是重複的。
Utopia執行長Mari-Sanna Paukkeri博士表示:“儘管資料集主要由芬蘭語訊息構成,但其他語言中的結果也會非常相似。例如,芬蘭仇恨言論的主要平臺Ylilauta其實就是大家都熟知的4chan的芬蘭版。此外,只需要兩週,我們就可以建立一個類似的人工智慧模型來識別其他任何語言中的仇恨言論。只需要一位具備相關技能的專業人員告訴我們對應文化和語言中如何定義仇恨言論即可,另外我們還需要具體資料來進行分析。”
章魚通(www.zhangyutong.net)人工智慧產業對接平臺。