本文來源:時代週報 作者:楊玲玲
鑑黃師工作輕鬆,有意思,但身體要過硬。外界眼中的鑑黃師,是一份令人想入非非的職業。關於鑑黃師的段子層出不窮,“帶薪看片”可能是最大的誤解。
鑑黃師的工作誕生於20世紀80年代。當時,公安部應“掃黃打非”需求設立這一新崗位。中國第一批鑑黃師以女民警居多。
網際網路普及,技術發展演進,對鑑黃師的要求也在不斷迭代:從最初的“肉眼鑑黃”,已發展至AI技術鑑別階段。AI鑑黃師不再需要每天看圖,更接近碼農工作狀態,面對一串串冰冷枯燥的程式程式碼。
與躲在小黑屋看片的摳腳大漢刻板印象截然不同,AI鑑黃師的要求門檻極高,高學歷幾乎成為職業標配。
圖源:視覺中國
陳宇(化名)2017年從香港科技大學博士畢業,隨後入職騰訊安全團隊。這支AI鑑黃團隊成員不過10人,幾乎清一色博士。他們主要工作內容是,打造一套模擬人腦的多模態系統,能夠對涉黃的影象、音訊、影片等進行AI鑑別。一言以蔽之,鑑黃師的工作不再是“黃圖連連看”,更像從事人工智慧研究的程式設計師。
網路資訊龐雜,形式多樣,鑑別難度增大。AI鑑黃師不僅要具備程式設計技能,智商過硬,更要深入一線,實時關注行業走向。用陳宇的話說,鑑黃如同諜戰。他們時常要潛入黑產群,瞭解一線,摸清暗語。
據全國“掃黃打非”辦公室公佈的資訊,2020年全國各地“掃黃打非”部門共處置各類網路有害資訊1200餘萬條,查辦“掃黃打非”相關網路案件5800餘起。
在虛擬世界,AI鑑黃師與看不見的另一端或短兵相接,或遙遙相望,雙方從未停止攻守一塊叫“人性”的高地。
鑑黃師需要價值觀面試
2016年,騰訊的AI鑑黃小分隊初步成立。如今,團隊已有10人,陳宇是其中一員。團隊成員大多是畢業於清華、中科院、華中大等知名高校的博士生。
這些高材生要明白的第一件事,就是團隊乾的不是“帶薪看片”的活兒。起初,團隊成員都是男性,後來分工越來越細,女性也開始加入進來。其中一名主要負責聲學場景分類的女生,來的時候並不知道工作內容是鑑黃。高知女性從事鑑黃工作,首先需要克服心理障礙。
“一開始有點不好意思,不知如何向朋友介紹職業,但很快就習慣了。在技術人的眼中,看到的不是別的,是各種特徵和規律。”該女性成員如是描述自己的心路歷程。不用去聽,就把聲音當成訊號,分析語譜圖(針對語音資料的頻譜分析檢視)。那時候,國內鮮少有人做聲音鑑黃,在團隊合力推出第一版聲音鑑黃系統後,她逐漸有了成就感。
鑑黃工作難免有尷尬時刻。一次,團隊一名女同事正在工位分析圖片,為看得清楚,把圖片放大了好幾倍,碰巧此時正好有其他部門的同事經過。頓時,空氣中都瀰漫著窘迫。
應聘者除了技術要過硬,更重要的是要透過價值觀考核。騰訊AI鑑黃團隊專門設有價值觀面試。
“(價值觀面試)主要考核應聘者從事這一職業的堅定程度。工作可能會遇到一些誘惑,比如,外部朋友被封號請你幫忙解決,或者一些人聯絡你去做一些技術漏洞,讓你留一些技術後門。你怎麼選擇?”陳宇介紹。
運營負責人告訴時代週報記者,嚴格篩選出理念、價值觀等大體統一的成員,即使行業瘋狂拼搶AI人才,鑑黃團隊仍保持基本穩定。
鑑黃工作就像諜戰劇
鑑黃是否真的需要一支如此精挑細選的博士團隊?答案是肯定的。
網路色情內容的展現形式多種多樣,既有靜態文字、圖片,也有動態的影片、音訊,僅透過“肉眼”也不能識別。
時代週報記者瞭解到,色情黑產高利高企,從業者達上百萬人,同樣是“高科技人才”“AI技術專家”。他們與鑑黃師的對抗實時發生。
“我們有時候覺得很像諜戰劇,雙方鬥智鬥勇,從明顯的色情內容對抗,到不易察覺的色情內容對抗,再到AI對抗,這是持續迭代的過程。”陳宇介紹。
說是諜戰,並不誇張。此前在各大社交平臺頻繁出現的“新茶”“喝茶”等內容,文字下方的配圖,用顯微鏡都難以找到的一片茶葉上,是年輕女孩的自拍照。這是色情行業的引流暗語。
一些所謂的“學生群”“培訓群”,某個美女頭像成員說“網課有位置”。這是組織者向群員傳送“我可以約”;“早安”是指早上有時間;“晚會”是說晚上有時間。
陳宇他們時常在這些群臥底。“實時關注行業黑話變化,總得知道他們到底在說些什麼。統一收集之後,這些就成了我們演算法訓練的素材。”陳宇說。
無人工,不智慧。這些複雜且隱蔽的色情內容,即便AI,最初也不一定搞得定,需技術人員花大量時間去研究黑產中的具體行為,然後透過人工輔助機器標註、訓練、識別。
“模型天天都在學習和訓練,關注最近出現的新詞、黑話。”陳宇說。
在此過程中,模型也需排除許多幹擾。比如,醫學中的宮頸糜爛圖片、雕塑和油畫中的裸露畫面。不同場景下,模型界定的標準也需動態調整。
搭建、執行如此一套複雜的AI鑑黃系統,真不是普通人幹得了的。目前,即便這支全員博士的小分隊,鑑黃準確率也很難達到100%:明顯的色情內容可以達到99.99%,輕微人工對抗內容為80%,專業AI對抗在60%左右。
“AI鑑黃技術在文字類和靜態影象中的準確率較高,影片類次之,音訊類較低。人工智慧對軟色情的鑑別還有短板。AI鑑黃可以大大減輕人工鑑黃師的工作量,但目前仍有誤鑑率。”9月18日,賽迪顧問人工智慧產業研究中心高階分析師徐暢告訴時代週報記者。
在陳宇看來,目前已經不再是單純地音訊鑑黃或者影片鑑黃,而是用多模態把資訊聚合在一起,模擬人腦思維過程,準確率比單純的音訊或影片鑑別高得多。
AI鑑黃還能擴充套件應用?
AI技術迅猛發展的今天,科技企業紛紛佈局AI鑑黃。
例如成立於2014年的圖普科技,成立之初便基於計算機視覺技術搭建雲平臺推出內容稽核服務,用於識別色情、暴恐、時政敏感資訊及小廣告等違規內容;今年6月,阿里巴巴安全部公開招募“AI鑑黃一日體驗官”,提供1000元日薪、1T硬碟、1年網盤會員、路費打包,下午茶不限量供應。這一度引發輿論熱議。
國外巨頭的AI鑑黃走得更早。谷歌在2018年就推出免費AI工具軟體,輔助人類鑑黃師對兒童性虐待內容(CSAM)的影象進行分類和鑑別。AI技術發展多年,如何落地真正改變人們生活,始終是科技企業的突破難點,AI鑑黃正是一個不錯的應用場景。學術研究需要真正落地去解決社會問題,而不僅是發表在期刊上的“空中樓閣”。
如今,騰訊AI鑑黃團隊的技術成果主要運用於騰訊內外部的直播、短影片等公開場景,針對騰訊平臺上的公開場景內容,結合使用者舉報資訊進行鑑別,也會透過騰訊雲對外輸出。
徐暢向時代週報記者介紹,用於AI鑑黃的各類技術,還可應用於安防、交通、金融、商業等多個場景,具體來說,可用於生物特徵識別、人臉識別、遠端身份認證、公安技偵、AI奢侈品鑑定、筆跡鑑定、電子支付、聲紋鎖控、語音互動、字幕製作、語音質檢等。
IDC全球人工智慧支出指南預測,未來4年,全球人工智慧相關支出將從2020年的501億美元增至2024年的1100多億美元。
2020年,在新冠肺炎疫情的影響下,中國人工智慧加速落地,助力抗疫與復工復產。AI技術在病毒基因檢測、醫療影像分析等各領域都得到推廣普及。艾媒諮詢資料顯示,2020年中國人工智慧行業核心產業市場規模超過1500億元,預計在2025年超過4000億元。
在陳宇看來,AI鑑黃可以幫助淨化網路環境,是一項科技向善的技術。
“科技向善”這一理念的提出者保羅·米勒曾說,“希望確保技術公司專注於回饋世界,而不僅僅是佔領我們的螢幕時間”。