處於在資訊爆炸時代的我們,在生活中越來越依賴智慧的個性化推薦來獲取各種各樣的資訊,比如人們依賴推薦系統來獲取新聞諮詢,選擇影片娛樂,尋找餐館,甚至於遇見新的朋友,和尋找工作。因此,推薦系統的研究也逐漸成為資料探勘和機器學習領域舉足輕重的一個方向。越來越多學界和工業界的專家學者們致力於提升推薦系統的效能以及解決其中併發的各種問題的研究。
8月21號,PHD Debate 第六期“深度推薦系統的探索與實踐”,AI TIME特別邀請了阿里巴巴達摩院演算法專家孫飛,網易伏羲研究部使用者畫像組負責人吳潤澤,華為諾亞方舟實驗室高階工程師劉衛文,德州農工大學竺子崴,中國科學技術大學吳劍燦作為嘉賓,以及來自德州農工大學的賀贇作為主持人。
01
推薦系統的研究熱點有哪些?
孫飛認為現在推薦系統的研究主流還是聚焦在如何提升推薦系統的準確率這個問題上。但是他表示因果推薦在推薦系統的應用也變得越來越流行。其中一個問題就是如果利用因果推斷做到反事實推理,從而去預測哪些產品是系統不推薦使用者就無法知曉的,而哪些產品是即使不推薦,使用者也會點選/購買的。除此之外,孫飛還表示對話推薦系統和推薦系統的隱私問題都是目前研究的熱點問題。
吳潤澤從他的工作經驗出發,介紹了組合推薦這種推薦場景,即將多個商品打包,並向用戶推薦這些商品組合。吳潤澤接著介紹了兩種組合推薦的問題,第一種是如何高效的推薦已知商品組合,另一種是如何高效的構建新的商品組合。從這個問題出發,他延展到了另一類很有現實意義的推薦問題,即如何在推薦時考慮商品關聯性而不是單純的考慮商品相似性。
劉衛文關注於序列推薦問題。她提到了序列推薦的兩個具體問題。第一個是如何對序列中商品之間互相的影響進行建模。第二個是如何搭建一個端對端的模型去提升序列推薦的多樣性問題。除此之外,劉衛文認為如何利用反事實學習去學習使用者在未觀測樣本上的行為也是一個很有研究價值的問題。
竺子崴著重強調了推薦系統中的公平性與偏差問題。其中包括了使用者層面和商品層面的多種公平與偏差問題。他表示對於這一大類問題,學者們可以從很多角度切入,比如去發現並定義新的問題,分析與研究已知問題的成因與影響,或者創造高效的演算法去解決這些問題。
吳劍燦主要介紹了圖神經網路在推薦系統裡的應用這一話題。其中,他著重提及了三個具體問題。第一個是如何利用對比學習來更高效的學習圖的節點表徵。第二是如何運用知識圖譜加圖神經網路來提升推薦準確率。第三是如何對動態圖進行建模。此外,吳劍燦還提到了一個新興的問題,即如何針對推薦系統構建大規模預訓練模型。
02
基於圖神經網路的推薦系統會成為未來的主流麼?
吳劍燦認為圖神經網路具有其獨特的優勢也有自身的不足,所以目前而言,圖神經網路還不能成為唯一的主流。首先,吳劍燦表示相比於對特徵間互動建模,圖神經網路更擅長於學習使用者或商品的表徵。其次,他認為圖神經網路的工業落地難度還比較大,一個難點就是對於圖中一個商品節點,它連結的使用者數量會非常大,使得圖神經網路的計算量也無比巨大。吳劍燦還表示,圖神經網路的另一個還未解決的研究難點是如何高效的對動態圖進行建模。
劉衛文補充道推薦系統主要就是構建各種型別的關係,包括使用者和商品間的關係,使用者與使用者之間的關係,還有商品與商品之間的關係。圖結構與圖神經網路可以很有效的表達並學習這些關係。但是圖神經網路在工業產品的應用中對計算資源和算力有很高的要求。
竺子崴也認為圖神經網路對於表徵學習有很強的優勢,同時它仍舊還有很多的問題需要解決。包括如何解決對計算資源的高消耗問題,如何解決序列推薦的問題,如何解決冷啟動問題。
孫飛認為利用知識圖譜和圖神經網路來搭建推薦系統從研究的角度而言是一個很有價值的問題。但是從工業界的實用角度出發,由於工業級的系統裡會有大量的關於使用者和商品的額外資訊,所以知識圖譜的運用並不廣泛。
吳潤澤同樣表示對於圖神經網路而言,動態圖問題是一個很有挑戰也很難解決的問題。比如圖中的節點(使用者,商品)會經常更新,如何讓模型動態的適配新的圖結構是一個亟需解決的問題。
03
推薦系統應該向通用大模型,還是小而精的模型方向發展?
劉衛文表示將模型變大會一定程度提升推薦效果,但是大模型不是推薦系統的終極目標。因為不同於自然語言,使用者和商品不能用一個潛在的統一規則來描述。劉衛文認為將來推薦系統的發展趨勢是“一人一模”,每個使用者擁有自己的個性化模型。
孫飛補充道通用大模型常常與預訓練精密聯絡。但是對於推薦系統,不同場景下使用者與商品的潛在關聯差別十分明顯。因此,使用預訓練搭配大模型可能難以復現預訓練模型模型在自然語言處理中的成功。此外,推薦系統是一個動態的不斷更新的應用場景,這要求模型經常更新改動,所以從這一角度出發,給預訓練搭配大模型在推薦系統中的應用提出新的挑戰。
竺子崴講述了他研究過程中做實驗的經驗。他說他經常發現同一個模型,在不同的資料集上進行實驗,結果常常很不一樣。所以,他認為可能對於推薦系統而言,不存在,或者很難建造一個通用的,適用於所有使用場景的模型。
04
推薦系統中有哪些公平性/偏差問題?
竺子崴從資料,模型,已經推薦結果三個角度介紹了推薦系統中的一些公平性/偏差問題。其中,資料中的偏差問題可以理解為我們用來訓練模型的訓練資料所表達的使用者與商品間的關係並不是準確的使用者商品關係,當我們利用這個有偏差的資料訓練模型,即使模型很準確,所得到的預測結果也會是有偏差的。不如說曝光偏差,使用者選擇偏差等等。其次,基於機器學習的推薦模型往往會引入新的偏差。換而言之,即使我們的資料是完美的,能夠精準的表達使用者和商品間的關係,由於模型會引入偏差,導致我們的推薦結果依舊是有偏差的。比如常見的流行性偏差,使用者主流偏差。最後,資料與模型裡的偏差會共同作用於推薦結果,導致我們觀察到各種各樣的問題,比如商品公平性問題,資訊繭房問題等等。
孫飛補充道,在工業應用中,不會解決所有的偏差問題。如果是對推薦效果有影響的問題,比如是位置偏差或者是曝光偏差,工業界往往會努力去解決。但是其他一些公平性/偏差問題,我們往往會觀測到系統性能與公平性的一個平衡取捨,所以實際應用中常常沒有動力為了提升公平性而去降低系統性能。另一方面,對於系統性能與公平性的平衡取捨這一問題,需要有更多的對於來自於公平性的長期收益的研究。
05
推薦系統如何做到可解釋性
吳潤澤表示從他的工作經歷看來,推薦系統中對可解釋性有很大的需求。首先,對模型的解釋可以幫助開發人員進行演算法除錯與最佳化。其二,提供模型的解釋可以使得系統對合作夥伴更透明,增強合作關係。最後,為使用者提供推薦的解釋能進一步幫助使用者瞭解商品,從而提升系統收益。吳潤澤還介紹了模型可解釋性的兩種基本思路:模型內解釋與模型外解釋。最後吳潤澤表示目前推薦系統的可解釋性面臨的最大難題之一就是如何評估模型解釋的好壞。
劉衛文補充道推薦系統的可解釋性也是需要分場景的。一些場景下,對推薦的額外解釋可能反而會帶來新的偏差問題。
孫飛認為有時推薦系統的解釋常常會變成推廣文案生成,並不是真的對演算法的推理進行解釋。
06
推薦系統的發展會面臨哪些挑戰與機遇
吳劍燦表示對於推薦系統的研究,可以分為表徵學習和特徵互動模型兩個方向。針對這兩個方向,可以結合其他領域的演算法,比如計算機視覺和自然語言處理,來提升效果。
竺子崴分享了他認為很重要也很有挑戰的兩個研究方向。第一個是如何縮減推薦系統線下與線上實驗的差距。基於此,一個子問題是如何構建一個模擬環境來模擬線上實驗。第二個問題是在一個長期並且動態的維度下,研究並解決公平性/偏差問題。
劉衛文介紹了三個目前前沿的研究方向。第一個是之前已經詳細討論過的如果給推薦系統提供解釋。第二是如何實現反事實學習來學習使用者在未觀測樣本上的行為。最後是如何實現“一人一模”。其中對於最後一個問題,劉衛文表示聯邦學習是一個很有潛力的技術。
吳潤澤表示如何提升推薦系統的社會責任感是一個很重要的話題。包括如何解決推薦系統帶來的資訊繭房,人群兩級分化等問題。
孫飛補充道最近推薦系統對於效果提升的研究已經進入平臺期,因此越來越多的人開始關注於推薦系統的社會責任感。包括公平性,可解釋性,模型透明,隱私保護等等。一個具體的問題就是如何讓模型能夠基於使用者的要求“遺忘”學習到的資料。