sponsored links

QQ音樂排序模型最佳化

導讀:今天和大家分享一下QQ音樂的排序模型最佳化之路,包括QQ音樂推薦業務的發展背景,遇到的問題和解決方案,以及對未來的展望。

將會圍繞下面五點展開:

  • 背景介紹
  • 使用者感知模型
  • 助力音樂生態
  • 多品類流量探索
  • 總結與展望

01

背景介紹

近年來我們音樂推薦業務的發展主要經歷了以下階段。

最初一名使用者來到QQ音樂,想聽點新鮮的歌曲,第一反應是找個性電臺、每日30首或者歌單,這些也是我們的一些品牌產品。因此我們排序模型的目標就是在這些產品上幫助使用者發現更好的音樂。

接下來隨著我們的品牌產品做得越來越好,同時QQ音樂發展壯大,關注了音樂人的生態,提出了音樂人億元激勵計劃,推薦業務隨之也要對原生的音樂人長尾內容進行扶持,但這裡排序模型一般只負責為使用者推薦更好的音樂,怎麼和扶持成為內容拉上關係,這就是我們這次分享需要探討的一個問題。

到了後來,QQ音樂為了滿足使用者更多的音樂品類的需求,建設了很多相關產品,比如影片、長音訊還有直播等等,這麼多豐富的品類,不可能全部在首頁展示,那麼為使用者推薦一些喜好的音樂品類,同時為平臺帶來更大的流量收益,是我們需要探索的一個方向。

這三個階段就對應了後面的三個章節。

02

使用者感知模型

首先介紹一下QQ音樂排序模型是如何幫助使用者發現更好的音樂的。

先給大家分享一個故事,我的一個朋友開啟QQ音樂,點開每日30首,選了一首聽完之後感覺不錯,就收藏了以後再聽。聽下一首不太行,切掉。再下一首,這首歌我好久都沒聽到了,QQ音樂也太懂我了!其實透過我這位朋友的故事,可以看到,QQ音樂裡面使用者聽歌行為是非常豐富多樣的,不同的行為代表著使用者對歌曲不同的喜好程度。

排序模型的目標就是充分理解使用者複雜多樣的行為,幫助使用者發現更好的音樂。

1. 最佳化排序方法

不同的行為樣本量是不一樣的,比如收藏和分享的行為樣本量就很少。如果使用傳統的PS模型,對這兩種行為就會學習不充分。傳統的最直接的解決方法是根據樣本量的比例進行過取樣,或者設計超參,影響這些不同行為的樣本權重。這兩種方法都意味著訓練樣本不符合真實的分佈,影響最終的推薦效果。

因此,我們在第一階段選擇了最佳化排序方法。

我們使用Pair-wise排序方法進行訓練,利用同一個使用者多種行為構造pair。比如收藏、分享就應該大於完整播放,再大於一些未點選、切歌、扎心等行為。

最終我們既緩解了不同行為之間樣本的不平衡問題,又使得模型在關注群體共性的同時兼具個體特性。最終帶來了收藏和播放的雙重提升。

2. 最佳化模型結構

我們如何根據使用者屬性、語種偏好、歷史行為和當前場景等等,幫助使用者發現感興趣的音樂呢?

我們參考了業界和學界的一些成功經驗,結合QQ音樂實際場景,優化了模型結構,從多維度充分理解使用者和歌曲。

模型的輸入主要包含了使用者和歌曲的基礎資訊,統計特徵,上下文資訊和使用者多個行為域的ID序列,將使用者多種行為序列分開,以此讓模型對使用者的正向和負向行為有充分的刻畫。比如收藏和分享就是明顯的正向行為。

模型經過三個模組進行學習,每個模組都從不同的角度去理解使用者和歌曲。

  • CIN模組,主要是學習了特徵之間的高階交叉關係。他最終就可以知道一名喜歡國風的廣州大學生在網上是否喜歡聽這首國漫的主題曲。
  • 行為attention模組,重點關注了使用者行為歷史中更相關的一些興趣點,比如使用者最近聽了3首ACG和7首華語,下一首推了ACG,那就應該更關注那3首ACG的相關情況。
  • ID Cross模組,是對使用者歷史行為中的歌曲序列和待排序的歌曲ID進行兩兩交叉,然後強記憶歌曲之間的co-action資訊。學習出經過稻香,還有收藏過江南的使用者,是否喜歡聽晴天。

透過這一系列的模型結構的最佳化,我們對使用者的行為理解更加深入,就可以在各個維度幫助使用者發現更好的音樂。

3. 最佳化學習目標

在下一個階段,我們發現了前面說到的一些Pair-wise模型會有以下兩個問題:

  • 第一個就是人為構造行為之間的關係,忽略了不同使用者之間的差別;
  • 第二個問題就是所有行為共同share一個模型,樣本少的一些行為學習仍然是不夠充分的。這就會導致模型無法準確地預測這些行為,為使用者推薦意料之外的一些音樂,最終容易缺乏驚喜感。

針對這兩個問題,我們的排序模型升級到多目標的學習框架,主要使用的是CGC模型。每一種行為都是一個預測目標,不同行為之間既有共享的一些資訊,也有一些獨立的資訊,充分理解使用者多種行為偏好。

最終不同行為之間互為先驗知識,互相遷移學習。為從來沒有收藏行為但有播放行為的使用者,推薦更可能收藏的音樂,他就會很有驚喜感,真正做到幫助使用者發現更好的音樂。

多目標學習框架極大地優化了我們推薦的使用者體驗,播放和收藏有明顯的提升,扎心也明顯下降,分發歌曲數提升了10%。

透過上述多個階段的最佳化,QQ音樂排序模型對使用者豐富多樣的行為有了充分的理解,最終幫助使用者發現更好的音樂,也帶來了平臺流量的極大提升。

03

助力音樂生態

接下來介紹QQ音樂排序模型如何扶持原生長尾內容。

為了鼓勵音樂人更好地創作歌曲,我們提出了音樂人億元激勵計劃,鼓勵音樂人在我們平臺發歌,給一些金錢上的支援。推薦業務團隊同樣也要履行平臺的責任,幫助扶持原生的長尾內容,助力音樂生態。

當時最大的矛盾就是音樂人和原創的作品如雨後春筍一般湧現,而少數頭部的音樂又佔據了絕大部分的流量。推薦業務團隊透過多種方法去扶持長尾內容,比如保量召回、關係鏈召回、重排傾斜等等,這些工作都是在召回層和重排層,而不是在排序層。

一般認為排序模型只負責為使用者推薦更好的音樂,如何扶持長尾內容呢?我們把排序模型扶持長尾內容的問題轉化成了緩解馬太效應的問題。

我們來看一下傳統金牌模型中的馬太效應究竟是如何形成的,如上圖例子,在訓練的過程中,樣本里面有比較多的使用者喜歡聽流行音樂,而比較少的使用者喜歡聽國風音樂,傳統的排序模型就會學習到大家更喜歡聽流行音樂這個結論。在預測的過程中,有一名使用者他主要聽國風,也喜歡聽流行音樂,傳統排序模型就因為他學到了大家都喜歡聽流行音樂這個結論,而推更多的流行音樂給到這名使用者,忽略了使用者本身的一些國風偏好,這就形成了馬太效應。

為了解決這個問題,我們引入了因果推斷,消除了物品熱度的偏差和使用者好奇心對點選率帶來的影響,讓排序模型學習出使用者對物品的真實偏好。

具體的模型如圖所示,除了中間部分前面我們提到的多目標學習框架預測了使用者對物品的點選率以外,兩邊分別加入了user only model和item only model,只輸入使用者特徵和只輸入物品特徵,分別預測了使用者好奇心和物品熱度對最終點選率的影響。模型在訓練過程中同時考慮這三個因素對點選率的影響,那麼在預測的過程中就可以減去使用者好奇心和物品熱度影響,得到使用者對物品的真實偏好,排除了馬太效應的影響。

最終透過引入因果推斷,既緩解了傳統模型的馬太效應,達到扶持長尾內容的效果,分發有極大的提升,又進一步地理解了使用者的偏好,優化了推薦的體驗,使得使用者的收藏率也提升明顯。

04

多品類流量探索

到了下一個階段,隨著QQ音樂的發展,為了滿足使用者更多的音樂品類訴求,QQ音樂建設了很多新的音樂品類,比如影片、長音訊、直播等。這麼多的音樂品類,如何更好地推薦給使用者,同時實現平臺的更大的流量價值,這就是我們最後要探討的問題。

音樂品類日益增多,我們主要面臨兩個問題:

  • 第一個問題,品類碎片化,不同品類之間缺乏一些協同的資訊。舉個例子,一個主要聽個性電臺,但從來沒有聽長音訊的使用者,無法被推薦到感興趣的長音訊內容。
  • 第二個問題就是首頁樣式的固定。首頁只有個性電臺、每日30首和歌單,這一方面會導致喜歡長音訊的使用者需要往下拉才能找到長音訊模組,另外導致長音訊這種能留住使用者更長時間、有更大的業務價值的模組,沒有辦法獲得更多的使用者。因此首頁樣式的固定,既浪費了流量,又沒有觸達到使用者。

針對上述兩個問題,我們採取了以下解決方案:

  • 第一是跨領域推薦,以使用者為中心,對各個品類之間的資訊進行遷移,學習聯通各個品類之間的資訊。
  • 第二,我們建設了模組個性化體系,尊重使用者消費投票的同時,探索品類更大的收益。

1. 跨領域推薦

跨領域推薦的工作就是我們以使用者為中心,聯通各個品類,將豐富行為的品類資訊遷移學習到稀疏行為的品類。比如個性電臺學習到的資訊遷移到長音訊,幫助長音訊為使用者推薦更好的內容。

我們主要參考業界廣泛使用的MDN模型,並且在此基礎上新增品類之間的對偶對映矩陣,得到的MV-CoNet模型。模型以使用者為中心,使用DSSM模型框架,每個品類就是一個塔,所有的品類共享使用者的資訊,分別學習使用者對各個品類的偏好。除此以外,品類兩兩之間會連線一個對偶對映矩陣,刻畫了品類之間的關係,達到遷移學習的效果。

最終透過跨領域推薦,稀疏行為的品類也能向用戶推薦更感興趣的內容,幫助使用者探索更多的音樂品類,提升了使用者在平臺內整體的粘性。

2. 模組個性化

前面說到了,首頁樣式的固定會導致流量效率低,並且使用者無法直接觸達到喜好的品類,那麼我們就讓使用者喜好的品類出現在首頁,提升使用者的體驗,擴大消費的規模,同時也要把更大價值的品類往前放,以獲取整個平臺的更大的流量收入。

為了實現上述目標,我們設計了模組個性化架構,同時我們在評估指標裡面兼顧了使用者數還有品類價值。具體的方案如下所示。

首先我們利用多目標模型預測出使用者的TopN喜好品類,然後結合品類價值貨幣化體系生成多套排序策略。品類價值貨幣化體系是評估哪些品類對平臺更有價值,比如長音訊一方面很好地補充音訊內容的核心競爭力,另一方面又很能提高使用者停留時長和粘性,所以長音訊的品類價值就很高。

最後,我們根據生成的多套排序策略,進行EE探索最大化個性化策略的流量收益。

透過這樣的品類個性化架構,我們兼顧了使用者的體驗和品類的價值,帶來了DAU品類分發多樣性和品類價值的明顯提升,為建設更良好的QQ音樂品類生態提供了幫助。現在無論是追求音樂品質的使用者,關注時間效率的使用者,還是注重自我提升的使用者,都能在QQ音樂推薦首頁快速找到對應的內容。

05

總結與展望

最後,我們總結一下今天介紹的內容。

隨著QQ音樂的發展,推薦業務承擔了越來越多的責任。一開始我們專注幫助使用者發現更好的音樂,從多個方面最佳化模型結構,多維度理解使用者豐富多樣的行為。

後來,QQ音樂提出了億元激勵計劃排序模型,扶持原生長尾內容。我們把這個問題轉化成緩解馬太效應問題,引入因果推斷,既扶持了長尾內容,又進一步挖掘了使用者的真實興趣。

目前,隨著音樂品類的不斷豐富,我們探索流量的最大收益,透過跨領域推薦聯通各個品類的資訊,為使用者推薦更好的內容,同時提出了模組個性化的框架,兼顧使用者的體驗和流量收入。

我們深知以上說的幾個方向,還有很多值得最佳化的地方。我們會進一步最佳化模組的結構,更好地幫助使用者發現音樂。進一步最佳化因果推斷,消除模型中更多的bias,進一步挖掘使用者感興趣的音樂。我們也會繼續最佳化跨領域推薦的技術,使用DQN等一些強化學習,持續最佳化流量效率。

最後,希望和大家互相交流,共同學習,一起為這些難題找到更好的解決方案。

06

精彩問答

Q1: 品類分發多樣性跟品類價值是如何計算的?

A: 固定每天三首個性電臺還有歌單,以此為base,如果我們分發更多的品類且每個使用者分發不同的品類,我們綜合平均一下就可以得到多樣性的權衡評估指標,兩兩之間的相似;長音訊幫助我們留住使用者更多的時間,我們就說它品類價值最大。

Q2:“扎心”這個目標線上如何生效的?

A:把這一部分預測的權重減掉,不推薦更容易“扎心”的內容,“扎心”這個目標更多的是幫助遷移學習,讓目標之間學到共同的資訊還有獨立的資訊,幫助模型為使用者推薦一些更有驚喜感的內容。

Q3:跨領域參考哪些論文

A:參見下圖

Q4:排序中多樣性是如何實現的?

A:分兩個階段做,第一階段透過重排,比如業界廣泛應用的MMR,DPP等手段,結合前面召回訓練出的音樂Embedding,再結合一些重排演算法,就可以提升整體多樣性;在精排模型的部分,離線是有一個訓練的模型,專門針對列表的整體進行預測,由於線上的複雜性,我們透過離線預測把資訊導到線上,結合起來去做預測,而不是線上實時預測的。

Q5:如果使用者對同類或者同標籤內容表現出扎心收藏兩種相反的行為特徵,這種情況我們以後推薦會用什麼樣的策略?

A:我們現在模型其實更多是大規模ID,一首歌或者一個使用者,就是一個很明顯的特徵或樣本,這樣其實很難同時存在“扎心”和“收藏”,但比如說一個使用者既喜歡國語流行,又不喜歡某一部分國語流行,這樣就透過我們的使用者畫像構建去識別使用者,對每一類使用者下面的細分標籤進行區分。

Q6:多目標模型使用的特徵和單目標模型使用的特徵是否有差異?

A:剛進行多目標升級框架的時候,整個特徵是往後遷移直接複用的,當然有些特徵是無法直接使用到多目標框架的,比如說使用者收藏的ID序列跟待排序的歌曲ID進行一個兩兩交叉,這裡有十億的引數量,我們不可能把十億的引數量都輸入到每個S盒裡面,所以這一塊我們只會去拼到最後一個線性模型裡面,然後真正輸入到S盒裡面是使用者跟歌曲的一些基礎資訊,比如說使用者的地理位置,比如廣州大學生年輕人,還有音樂,它是屬於流行的,國風的等等一些資訊,還有今天現在是上午還是下午,這些資訊才會輸入到S盒裡面去決策那種大規模ID交叉。

Q7:因果推薦在後續推薦中有哪些最佳化來消除更多的bias?

A:傳統的因果推薦是兩階段的,第一階段預測一個物品跟一個使用者樣本曝光的機率,然後用這個機率模型,去修正排序模型真正學習的樣本權重,修正完後才會去訓練一個沒有bias的排序模型,我們這裡是一階段,同時預測點選率就是使用者對歌曲的喜好,也同時預測使用者好奇心對點選率的影響,物品熱度對點選率的影響,本身就是一個因果推斷最佳化的方向。

今天的分享就到這裡,謝謝大家。



在文末分享、點贊、在看,給個3連擊唄~



分享嘉賓:

分享嘉賓:Glad 騰訊音樂 高階演算法工程師

編輯整理:韓曉婷 北京大學

出品平臺:DataFunTalk

分類: 財經
時間: 2022-02-15

相關文章

油價調整資訊:今天9月19日,最新調價後各地92、95號汽油價格

油價調整資訊:今天9月19日,最新調價後各地92、95號汽油價格
今天國內成品油調價視窗正式開啟,此次油價正式上調,每噸汽油上調90元,每噸汽油上調85元.折算下來,92.95.98號汽油每升上漲0.07元.各位車主現在加滿一箱油大概多花3.5元. 國際原油市場方面 ...

長安福特EVOS最新訊息 將9月26日正式開啟預售

長安福特EVOS最新訊息 將9月26日正式開啟預售
日前,行車視線從相關渠道獲悉,全新長安福特EVOS將在今年9月26日正式開啟預售.結合此前訊息來看,新車有望在今年第四季度內正式上市. 回顧外觀,新車造型設計年輕.時尚,且車頭上有蜂窩狀進氣格刪,內部 ...

今日油價調整資訊:9月21日,全國加油站柴油、92、95號汽油價格

今日油價調整資訊:9月21日,全國加油站柴油、92、95號汽油價格
今天是2021年9月21日,中秋節假期即將結束,駕車旅遊的車主朋友或許正在返程路上.如果你在假期前沒有提前加滿汽車油箱的話,今天去到加油站會驚喜地發現國內油價又上漲了.經過今年18次油價調整和12次油 ...

油價調整訊息:今天9月24日,加油站92、95號汽油最新售價

油價調整訊息:今天9月24日,加油站92、95號汽油最新售價
原油價格在本週連續反彈兩個交易日,主要是原油市場供應面仍顯緊張,主要產油國庫存已遠遠低於最近五年的平均水平,並可能會因為原油產量恢復速度緩慢,原油庫存將在一個較長的時間裡保持較低的水平,昨天托克首席經 ...

油價調整訊息:10月9日,油價還要漲?

油價調整訊息:10月9日,油價還要漲?
假期即將來臨,新一輪成品油調價視窗,也將在長假之後的10月9日正式開啟,由於國際油價持續上漲,本週期前3個國內工作日,原油變化率已高達2.37%,按此估算的話,成品油預計上調幅度可達115元/噸. 國 ...

今日油價調整資訊:9月22日,全國加油站柴油、92、95號汽油價格

今日油價調整資訊:9月22日,全國加油站柴油、92、95號汽油價格
今天是2021年9月22日,迎來了今年中秋節假期後的首個工作日,在放假前沒有加滿汽車油箱的車主朋友,現在去加油站會發現柴油.汽油價格又貴了一些,在假期後駕車去加滿50升容量的汽車油箱一次要多花大約3. ...

旗濱集團最新公告:“旗濱轉債”10月15日起開始轉股
旗濱集團公告,"旗濱轉債"(債券程式碼"113047")轉股期起止日期為2021年10月15日至2027年4月8日,轉股價格12.80元/股. 旗濱集團2021 ...

成品油調價最新訊息:今日油價上調後,92號,95號,0號柴油價格

成品油調價最新訊息:今日油價上調後,92號,95號,0號柴油價格
最新加油站價格 油價最新訊息:今日油價分別上調90元和85元/噸,看下最新加油站最高限價 2021年09月19日國內汽柴油價格表(最高限價) 宣告:僅供參考,請以您所在地區的加油站報價為準 地區 92 ...

2022國家公務員考試10月15日啟動?

2022國家公務員考試10月15日啟動?
2022年國家公務員考試即將拉開帷幕,近期不少高校釋出了宣講會訊息.召開宣講會有何重要?一方面,號召高校畢業生踴躍報考,另一方面,也預示2022國考招錄工作基本準備到位.小編帶大家一起來看看最新訊息吧 ...

「樓市內參」9月15日房地產行業關鍵詞“前8月商品房銷售額”

「樓市內參」9月15日房地產行業關鍵詞“前8月商品房銷售額”
<樓市內參>欄目由品質家園運營出品,旨在覆盤房產行業每日要聞資訊資訊. 昨日#品質家園#快訊要點 國新辦:前8月商品房銷售額11.9萬億元同比增長22.8% 天津公積金新政:二套房利率為同 ...

若西蒙斯不報到,76人11月15日才能罰款,他已收入1650萬
虎撲09月20日訊 根據此前的相關報道,如果西蒙斯不參加訓練營,76人也可以對他處以每個工作日22.7萬美元的罰款. 根據ESPN記者Brian Windhorst的報道,76人直到當地時間11月15 ...

黨史上的今天:7月15日
重要論述 1934年7月15日 中華蘇維埃共和國臨時中央政府主席毛澤東,副主席項英.張國燾:中國工農紅軍革命軍事委員會主席朱德,副主席周恩來.王稼祥等聯名發表<為中國工農紅軍北上抗日宣言> ...

慕田峪長城纜車10月15日停運
新京報快訊 據慕田峪長城官微訊息,隨著慕田峪長城的建設規劃進一步完善,為了景區的可持續發展同時給遊客提供更優質的服務,慕田峪長城景區將對纜車進行升級改造,2021年10月15日停運,重新開放時間另行公 ...

注意!10月15日起!電費上漲不受限!1700多家水泥廠受影響

注意!10月15日起!電費上漲不受限!1700多家水泥廠受影響
日前,國家發改委印發<關於進一步深化燃煤發電上網電價市場化改革的通知>,明確將從10月15日起有序放開全部燃煤發電電量上網電價,並擴大市場交易電價的上下浮動範圍. 水泥人網, 驚!水泥企業 ...

沉浸式模擬《美好人生》10月15日發售 前往最幸福的地方

沉浸式模擬《美好人生》10月15日發售 前往最幸福的地方
發行商Playism和開發商White Owls and Grounding宣佈,沉浸式模擬開放遊戲<美好人生>將於10月15日發售,登陸PS4.Xbox One.Switch和Steam ...

《仙劍七》預計2021年10月15日發售,又是一個五年
仙劍!是一款無論從那個角度來講都稱得上經典的遊戲,然而很多人事實上並沒有玩過這款經典.無論是畫面勸退,還是系統不相容,總之這款遊戲的經典之處除非從那個年代陪著仙劍一路走來的人,其他人難以領略他的魅力. ...

《交通可持續發展》特種郵票10 月 15 日發行

《交通可持續發展》特種郵票10 月 15 日發行
如果覺得我們的文章對大家有幫助,請關注.點贊. 中國郵政定於2021年10月15日發行<交通可持續發展>特種郵票一套4枚,全套郵票面值4.80元,郵票計劃發行數量為650萬套. 黨的十八大 ...

繼續下跌!發改委:全國生豬出場價格為13.42元/公斤,比9月15日下跌3.17%
中國發展網訊 據國家發展改革委監測,截至9月22日,全國生豬出場價格為13.42元/公斤,比9月15日下跌3.17%:主要批發市場玉米價格為2.72元/公斤,比9月15日下跌0.73%:豬糧比價為4. ...

印度10月15日起開放國際遊客入境
據印度報業托拉斯報道, 印度內政部決定從10月15日起,開放以包機形式進入印度旅遊的國際旅客入境,同時赴印度旅遊的散客也將從11月15日可以申請簽證.這一項決定是印度衛生部.民航部.旅遊部及業內人士會 ...

冀東水泥(000401.SZ)2012年公司債券(品種三)將於10月15日付息
智通財經APP訊,冀東水泥(000401.SZ)釋出公告,公司2012年公司債券(品種三)將於2021年10月15日支付自2020年10月15日至2021年10月14日期間的利息.