sponsored links

電商知識圖譜

導讀:發展是平臺永恆的話題,以電商平臺為例,在基於使用者身份、歷史行為挖掘偏好,以實現精準搜尋和推薦結果展示之外,為了激勵使用者在平臺進行更多采購,需要專門構建強化採購激勵、拓寬採購品類的場景。本文以知識圖譜為切入點,重點講解了阿里巴巴B2B在電商結構化資訊挖掘和場景應用等方面的經驗。

知識圖譜並不是一個全新的概念,它經歷了知識工程、專家系統、語義網路等多種形式。

01

知識工程與專家系統

在1977年第五屆國際人工智慧會議上,美國斯坦福大學計算機科學家Edward A. Felgenbaum發表的文章The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系統性地闡述了“專家系統”的思想,並且提出了“知識工程”的概念。他認為:“知識工程利用了人工智慧的原理和方法,為那些需要專家知識才能解決的應用難題提供求解的一般準則和工具。在1984年8月全國第五代計算機專家討論會上,史忠植教授提出:“知識工程是研究知識資訊處理的學科,提供開發智慧系統的技術,是人工智慧、資料庫技術、數理邏輯、認知科學、心理學等學科交叉發展的結果。”

專家系統最成功的案例是DEC的專家配置系統XCON。1980年,XCON最初被用於DEC位於新罕布什爾州薩利姆的工廠,它擁有大約2500條規則。截至1986年,它一共處理了80 000條指令,準確率達到95%~98%。據估計,透過減少技師出錯時送給客戶的元件以加速組裝流程和增加客戶滿意度,它每年為DEC節省2500萬美元。

一個典型的專家系統如圖1所示,其特點主要包括:

  • 在特定領域裡要具有和人一樣或者超出人的高質量解決困難問題的能力;
  • 擁有大量、全面的關於特定領域的專業知識;
  • 採用啟發的方法來指導推理過程,從而縮小解決方案的搜尋範圍;
  • 能夠提供對自己的推理決策結果進行解釋的能力;
  • 引入表示不同型別知識(如事實、概念和規則)的符號,專家系統在解決問題的時候用這些符號進行推理;
  • 能夠提供諮詢建議、修改、更新、拓展能力,並能處理不確定和不相關的資料。

圖1 專家系統架構

可以看到,專家系統大量依靠領域專家人工構建的知識庫。在資料量激增、資訊暴漲的當下,人工維護知識庫的方式在效率和覆蓋率上都難以達到令人滿意的水平。另外,推理規則的增加也增加了系統的複雜度,從而導致系統非常難以維護。

02

語義網路與知識圖譜

1. 語義網路

伴隨著Web技術的不斷髮展,人類先後經歷了以網頁的連結為主要特徵的Web 1.0時代到以資料的連結(Linked Data)為主要特徵的Web 2.0時代,目前Web技術正逐步朝向Web之父Berners Lee在2001年提出的基於知識互聯的語義網路(semantic Web),也就是Web 3.0時代邁進。

在Web 2.0時代,網際網路發展迅猛,資料的規模呈爆發式增長,基於統計的機器學習方法佔據主流,並且在各個領域取得不錯的成果。例如搜尋引擎,搜尋的流程大致可拆分為基於使用者查詢、召回、L2R這3個過程,一定程度提升了使用者獲取資訊的效率。但是這種服務模式仍然是把一系列資訊拋給使用者,使用者最終還是需要對資料進行篩選、甄別,才能拿到自己最需要的資訊。因此這種服務方式在效率、準確率上都有缺陷。

語義網路的目標是構建一個人與機器都可理解的全球資訊網,使得網路更加智慧化,在解析使用者查詢意圖的基礎上,提供更加精準和快速的服務。傳統的語義網路要做到這一點,就需要把所有線上文件構成的資料都進行處理並存放在一起,形成一個巨大、可用的資料庫。

這麼做需要強大的資料處理和Web內容智慧分析能力:首先就需要對這些Web資料進行語義標註,但是由於Web資料具有體量巨大、異質異構、領域範圍大等特點,所以如何自動給Web上的網頁內容新增合適的標籤成為技術痛點之一。另外,面對已經標註過的Web資料,機器如何進行思考和推理也是亟待解決的問題。

由於上述問題的存在,在語義網路提出後的10年間,其沒有得到大規模應用,但是在對其研究的過程中,積累沉澱了成熟的本體模型建模和形式化知識表達方法,例如RDF(Resource Description Framework)和全球資訊網本體語言(Web Ontology Language,OWL),這為後續知識圖譜的出現奠定了基礎。

2. 知識圖譜

① 知識圖譜概述

知識圖譜由Google公司於2012年5月16日第一次正式提出並應用於Google搜尋中的輔助知識庫。谷歌知識圖譜除了顯示其他網站的連結列表,還提供結構化及詳細的相關主題的資訊。其目標是提高搜尋引擎的能力,希望使用者能夠使用這項功能來解決他們遇到的查詢問題,從而提高搜尋質量和使用者體驗。

知識圖譜是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其之間的關係。其基本組成單位是“實體-關係-實體”三元組,以及實體及其相關屬性-值對,實體間透過關係相互連線,構成網狀的知識結構。隨著知識圖譜構建規模越來越大,複雜度越來越高,開始出現實體、類別、屬性、關係等多顆粒度、多層次的語義單元,這些關聯關係透過統一的知識模式(Schema)抽象層和知識例項(Instance)層共同作用構成更加複雜的知識系統。

從定義中可以看到,知識圖譜是一個語義知識庫,具備足夠的領域知識,其最重要的組成成分是三元組。三元組通常可以表示為G=<Eh,R,Et>,其中R表示知識圖譜中實體間所有關係的集合,例如關係“is_a”。一般情況下,關係都是帶方向且有明確語義的,反之則關係不能成立,例如“阿里巴巴is_a公司”。也有一些關係是雙向的,例如“張三is_friend_of李四”,反之亦然。對於這種雙向關係,通常情況會對調實體位置,拆分為2個三元組分別儲存。實體Eh、Et⊆E={e1,e2,...,e|E|}分別表示頭實體(Head Entity)、尾實體(Tail Entity),兩個實體共同用於表徵關係的方向。

實體及其屬性可以用一種特殊的關係三元組表示,例如“has_a”。實體和屬性的界線比較模糊,一般從業務角度出發,在設計Schema的時候,如果認為某類屬性具有一類概念的共性,同時在後面的推理(例如路徑遊走時新關係發現)中能夠發揮作用,就可以把它作為實體對待。還有一類屬性,比如年齡、身高,這類單純描述實體特徵的最細粒度屬性,則一般被設計為屬性。

② 常見開放知識圖譜

WordNet是由普林斯頓大學認知科學實驗室於1985年構建的一個英文電子詞典和本體知識庫,採用人工標註的方法構建。WordNet主要定義了名詞、形容詞、動詞和副詞之間的語義關係,包括同義關係、反義關係、上下位關係、整體部分關係、蘊含關係、因果關係、近似關係等。比如,其中的名詞之間的上下位關係,“水果”是“蘋果”的上位詞。

Freebase是由創業公司MetaWeb於2005年啟動的一個以開放、共享、協同的方式構建的大規模連結資料庫語義網路專案,2010年被谷歌收購併成為谷歌知識圖譜中的重要組成部分。Freebase主要資料來源有Wikipedia、世界名人資料庫(NNDB)、開放音樂資料庫(Music-Brainz)以及社群使用者的貢獻。它主要透過三元組構造知識,並採用圖資料儲存,有5800多萬個實體和30多億個實體間關係三元組。2016年正式關閉,資料和API服務都遷移至Wikidata。

Yago是由德國馬普研究所研發的連結知識庫,主要集成了Wikipedia、WordNet和GeoNames這3個數據庫中的資料。Yago將WordNet的詞彙定義與Wikipedia的分類體系進行融合,從而使得Yago相對於DBpedia有更加豐富的實體分類體系,同時Yago還考慮了時間和空間知識,為知識條目增加了時間和空間維度屬性描述。目前Yago已經包含1.2億條三元組知識,是IBM Watson的後端知識庫之一。

OpenKG是一個面向中文領域的開放知識圖譜社群專案,主要目的是促進中文領域知識圖譜資料的開放與互聯。OpenKG上已經收錄了大量開放中文知識圖譜資料、工具及文獻。目前開放的知識圖譜資料包括百科類的zhishi.me(狗尾草科技、東南大學)、CN-DBpedia(復旦大學)、XLore(清華大學)等。

當然,還有一些垂直領域知識圖譜,這類知識圖譜不像上述通用領域知識圖譜那樣所涉內容廣而全。垂直領域知識圖譜主要面向特定領域的特定知識、應用場景進行構建,比如醫療領域的Linked Life Data、電商領域的阿里巴巴商品知識圖譜和場景導購知識圖譜。

03

知識圖譜構建

知識圖譜構建是一個系統工程,涵蓋多種資訊處理技術,用於滿足圖譜構建過程中的各種需要。典型的圖譜構建流程主要包括:知識抽取、知識推理和知識儲存。

知識表示貫穿於整個知識圖譜構建和應用的過程,在不同階段知識表示具有不同的體現形式,例如在圖譜構建階段,知識表示主要用於描述知識圖譜結構,指導和展示知識抽取、知識推理過程;在應用階段,知識表示則主要考慮上層應用期望知識圖譜提供什麼型別的語義資訊,用以賦能上層應用的語義計算。

本節重點講述面向應用的知識圖譜表示。

1. 知識抽取

知識抽取是知識圖譜構建的第一步,是構建大規模知識圖譜的關鍵,其目的是在不同來源、不同結構的基礎資料中進行知識資訊抽取。按照知識在圖譜中的組成成分,知識抽取任務可以進一步細分為實體抽取、屬性抽取和關係抽取。

知識抽取的資料來源有可能是結構化的(如現有的各種結構化資料庫),也有可能是半結構化的(如各種百科資料的infobox)或非結構化的(如各種純文字資料)。針對不同型別的資料來源,知識抽取所需要的技術不同,技術難點也不同。通常情況下,一個知識圖譜構建過程面對的資料來源不會是單一型別資料來源。

本節重點介紹針對非結構化文字資料進行資訊抽取的技術。如上文所述,實體和屬性間的界線比較模糊,故可以用一套抽取技術實現,所以下文如果不做特殊說明,實體抽取泛指實體、屬性抽取。

① 實體抽取

實體抽取技術歷史比較久遠,具有成體系、成熟度高的特點。早期的實體抽取也稱為命名實體識別(Named Entity Recognition,NER),指的是從原始語料中自動識別出命名實體。命名實體指的是具有特定意義的實體名詞,如人名、機構名、地名等專有名詞。實體是知識圖譜中的最基本的元素,其效能將直接影響知識庫的質量。按照NER抽取技術特點,可以將實體抽取技術分為基於規則的方法、基於統計機器學習的方法和基於深度學習的方法。

  • 基於規則的方法:

基於規則的方法首先需要人工構建大量的實體抽取規則,然後利用這些規則在文字中進行匹配。雖然這種方法對領域知識要求較高,設計起來會非常複雜,且實現規則的全覆蓋比較困難,移植性比較差,但是在啟動的時候可以透過這個方法可以快速得到一批標註語料。

  • 基於統計機器學習的方法:

既然是機器學習的方法,就需要標註語料,高質量的標註語料是透過這類方法得到好的效果的重要保障。該方法的實現過程為:在高質量的標註語料的基礎上,透過人工設計的特徵模板構造特徵,然後透過序列標註模型,如隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)和條件隨機場模型(Conditional Random Fields,CRF)進行訓練和識別。

模型特徵的設計需要較強的領域知識,需要針對對應實體型別的特點進行設計。例如,在人名識別任務中,一箇中文人名本身的顯著特點是一般由姓和一兩個漢字組成,並且人名的上下文也有一些規律,如“×××教授”“他叫×××”。在有了高質量的標註語料的基礎上,合適的特徵設計是得到好的序列標註模型效果的又一重要保障。

對於序列標註模型,一般我們對需要識別的目標字串片段(實體)透過SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)標註體系進行標註。命名實體標註由實體的起始字元(B)、中間字元(I)、結束字元(E)、單獨成實體的字元(S)、其他字元(O)等組成,如圖2所示。

圖2 命名實體標註

為了區分實體的型別,會在標註體系上帶上對應的型別標籤,例如ORG-B、ORG-I、ORG-E。

在實體抽取中,我們最常用的基於統計的序列標註學習模型是HMM、CRF。其中,HMM描述由隱藏的隱馬爾可夫隨機生成觀測序列的聯合分佈的P(X,Y)過程,屬於生成模型(Generative Model),CRF則是描述一組輸入隨機變數條件下另一組構成馬爾可夫隨機場的資料變數的條件機率分佈P(Y|X),屬於判別模型(Discrimination Model)。

以HMM為例,模型可形式化表示為λ= (A,B,π),設I是長度為T的狀態序列,O是對應長度的觀測序列,M為所有可能的觀測數(對應於詞典集合大小),N為所有狀態數(對應標註的類別數),A是狀態轉移矩陣:

其中:

aij表示在時刻t處於qi的條件下在時刻t+1轉移到qj的機率。

B是觀測機率矩陣:

其中:

π是初始狀態機率向量:

其中:

πi表示在時刻t=1處於狀態qi的機率。

HMM模型的引數學習即學習上面的A,B,π矩陣,有很多實現方法,比如EM和最大似然估計。一般在語料充足的情況下,為了簡化過程,採用最大似然估計,例如:

序列標註任務可以抽象為求解給定觀察序列O=(o1,o2,...,oT)和模型λ=(A,B,π),也就是計算在模型λ下使給定觀測序列條件機率P(I|O)最大的觀測序列I=(i1,i2,...,iT),即在給定觀測序列(即原始字串文字)中求最有可能的對應的狀態序列(標註結構)。一般採用維特比演算法,這是一種透過動態規劃方法求機率最大路徑的演算法,一條路徑對應一個狀態序列。

定義在時刻t狀態為i的所有單個路徑(i1,i2,…,it)中機率最大值為:

可以得到變數δ的遞推公式:

定義在時刻t狀態為i的所有單個路徑(i1,i2,…,it-1,i)中機率最大的路徑的第t-1個節點為:

維特比演算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,...,N之後,透過上述遞推公式,得到最優序列。

CRF演算法與維特比演算法類似,其得到在各個位置上的非規範化機率的最大值,同時記錄該路徑:

  • 基於深度學習的方法

在上面介紹用統計機器學習的方法構造特徵的時候,我們發現實體在原始文字中的上下文特徵非常重要。構建上下文特徵需要大量的領域知識,且要在特徵工程上下不少功夫。隨著深度學習的方法在自然語言處理上的廣泛應用,構建上下文特徵開始變得簡單了。深度學習的方法直接以詞/字向量作為輸入,一些模型(如RNN、Transformer等)本身就能很好地學習到上下文資訊,並且不需要專門設計特徵來捕捉各種語義資訊,相比傳統的統計機器學習模型,效能都得到了顯著提高。這一類模型的通用結構基本都是一個深度神經網路+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基於字或詞輸入(一般來說,基於字的模型效能更加優秀,它可以有效解決OOV問題)。這個DNN模型可以學習上下文語義特徵、預測各個位置上輸出各個標籤的機率,然後再接入CRF層來學習各標籤之間的依賴關係,得到最終的標註結果。

② 關係抽取

關係抽取的目標是抽取兩個或者多個實體間的語義關係,從而使得知識圖譜真正成為一張圖。關係抽取的研究是以MUC(Message Understanding Conference)評測會議和後來取代MUC的ACE(Automatic Content Extraction)評測會議為主線進行的。ACE會議會提供測評資料,現在許多先進的演算法已經被提出。

一般關係抽取的順序是,先識別實體,再抽取實體之間可能存在的關係。其實也可以把實體抽取、關係抽取聯合在一起同時完成。目前,關係抽取方法可以分為基於模板的關係抽取和基於監督學習的關係抽取兩種方法。

  • 基於模板的關係抽取

基於模板的關係抽取,即由人工設計模板,再結合語言學知識和具體關係的語料特點,採用boot-strap思路到語料裡匹配並進行抽取關係。這種方法適用於小規模、特定領域任務冷啟動時的關係抽取,這種場景下效果比較穩定。

  • 基於監督學習的關係抽取

基於監督學習的關係抽取方法一般把關係抽取任務當作一系列的分類問題處理。即基於大規模的標註語料,針對實體所在的句子訓練有監督的分類模型。分類模型有很多,例如統計機器學習方法SVM及深度學習方法(如CNN)等。

傳統的機器學習方法重點在特徵選擇上,除了實體本身的詞特徵,還包括實體詞本身、實體型別、兩個實體間的詞以及實體距離等特徵。很多研究都引入了依存句法特徵,用以引入實體間的線性依賴關係。基於深度學習的關係抽取方法則不需要人工構建各種特徵,輸入一般只要包括句子中的詞及其位置的向量表示特徵。目前基於深度學習的關係抽取方法可以分為流水線方法(Pipeline)和聯合抽取方法(Jointly)。前者是將實體識別和關係抽取作為兩個前後依賴的分離過程;後者則把兩個方法相結合,在統一模型中同時完成,從而避免流水線方法中存在的錯誤累計問題。

在經典的深度學習關係抽取方法中,輸入層採用的就是詞、位置資訊,將在Embedding層得到的向量作為模型的輸入,經過一個BI-LSTM層和Attention層,輸出得到各個關係的機率,如圖3所示。

圖3 經典深度學習關係抽取模型架構

③ 知識融合

透過知識抽取,我們得到大量實體(屬性)和關係,但是由於描述、寫法的不同,結果中存在大量冗餘和錯誤資訊,有必要對這些資料進行消歧、清洗和整合處理。作為知識融合的重點技術,實體連結(Entity Linking)的目的是將在文字中抽取得到的實體物件連結到知識庫中與之對應的唯一確定的實體物件,以實現實體消歧和共指消解。

實體消歧(Entity Disambiguation)專門用於解決同名實體的歧義問題,最簡單的方法是透過實體的屬性、周邊的詞構成特徵向量,透過向量的餘弦相似度評估兩個實體的相似度。基於這個思想,我們可以有更多的基於語義的方法來表徵目標實體,從而評估兩個實體是否是同一個。

共指消解(Entity Resolution)是指解決多個不同寫法的實體指向同一個實體的問題。一般這類問題可以參考實體消歧方法解決,也可以具體問題具體分析,透過一些規則方法解決。

2. 知識推理

知識推理是基於現有的知識圖譜結構,進一步挖掘隱含的知識,用來補全現有知識圖譜屬性、關係,從而發現新的知識,拓展和豐富圖譜。例如可以透過推理發現新屬性,如由已知實體的出生年月屬性推理出年齡;也可以發現新關係,例如,已知(A,股東,B公司)、(C,股東,B公司)可以推理得出(A,合作伙伴,C)。知識推理的方法可以分為兩大類:基於邏輯的推理和基於圖的推理。

① 基於邏輯的推理

基於邏輯的推理主要包括一階謂詞邏輯(First Order Logic)推理、描述邏輯(Description Logic)推理。一階謂詞對應著知識庫裡的實體物件和關係,透過謂詞之間的“與”和“或”的關係來表示知識變遷從而實現推理。例如透過“媽媽是女人”“女人是人”可以推理得到“媽媽是人”。描述邏輯則是在一階謂詞的基礎上,解決一階謂詞邏輯的表示能力有限的問題,透過TBox(Terminology Box)和ABox(Assertion Box),可以將知識圖譜中複雜的實體關係推理轉化為一致性的檢驗問題,從而簡化推理。

② 基於圖的推理

基於圖的推理方法,主要藉助圖的結構特徵,透過路徑遊走的方法,如Path Ranking演算法和神經網路圖向量表示方法,進行基於圖的推理。Path Ranking演算法的基本思想是從圖譜的一個節點出發,經過邊在圖上游走,如果能夠透過一個路徑到達目標節點,則推測源節點和目標節點存在關係。神經網路圖向量表示方法則是對透過向量表示後的圖節點、關係進行相似度運算,推理節點之間是否存在關係。

3. 知識圖譜儲存

知識圖譜中的資訊可以用RDF結構表示,它的主要組成成分是三元組,主要包括實體及其屬性、關係三類元素。在實際應用中,按照底層資料庫的儲存方式不同,可以分成基於表結構的儲存和基於圖結構的儲存。基於表結構的儲存可以理解為一般的關係型資料庫,常見的如MySQL、Oracle,基於圖儲存的資料庫常見的有Neo4j、OrientDB、GraphDB等。

① 基於表結構的儲存

基於表結構的知識圖譜儲存利用二維資料表對知識圖譜中的資料進行儲存,有3種常見的設計方案:基於三元組的儲存、基於型別表的儲存和基於關係型資料庫的儲存。

  • 基於三元組的儲存

因為知識圖譜可以由三元組描述,所以我們可以把知識圖譜轉化成三元組的描述方式,將其放到一張資料表中。例如可以類似表1所示的形式。

表1 三元組儲存示例

這種儲存的優點很明顯,結構比較簡單,可以透過再加一些欄位來增強對關係的資訊的描述,例如區分是屬性還是關係。其缺點也很明顯:首先,這樣有很高的冗餘,儲存開銷很大,其次,因修改、刪除和更新操作帶來的操作開銷也很大;最後,由於所有的知識都是以一行一個三元組的方式儲存的,因此所有的複雜查詢都要拆分為對三元組的查詢才能得到答案。

  • 基於型別表的儲存

針對上述方案存在的缺點,可以為每一種實體型別設計一張資料庫表,把所有同一型別的實體都放在同一張表中,用表的欄位來表示實體的屬性/關係。這種方案可解決上面儲存簡單、冗餘度高的問題,但是缺點也很明顯:首先,表字段必須事先確定,所以要求窮舉實體的屬性/關係,且無法新增(否則需要修改表結構);其次,因為屬性/關係都是儲存在特定列中的,所以無法支援對不確定型別的屬性和關係的查詢;最後,因為資料按照型別放在對應表中,所以在查詢之前就需要事先知道實體的型別。

  • 基於關係型資料庫儲存

關係型資料庫透過表的屬性來實現對現實世界的描述。我們可以在第二種方案的基礎上設計實體表(用於儲存實體屬性)、關係表(用於儲存實體間的關係),這一定程度上可以解決表結構固定、無法新增關係的問題,因為一般我們認為實體的屬性可以在Schema設計時事先列舉完。例如表7-1,可以拆分為3張表(見表2、表3和表4)。

表2 組織機構表

表3 人物表

表4 關係表

4. 基於圖結構的儲存

知識圖譜本身就是圖結構的,實體可以看作圖的節點,關係可以看作圖的關係,基於圖的方式儲存知識,可以直接、準確地反映知識圖譜內部結構,有利於知識的查詢、遊走。基於圖譜的結構進行儲存,可以借用圖論的相關演算法進行知識推理。常見的圖資料庫有Neo4j、OrientDB、GraphDb、GDB(阿里雲)等。

Neo4j是一個開源的圖資料庫,它將結構化的資料以圖的形式儲存,基於Java實現(現在也提供Python介面),是一個具備完全事務特性的高效能資料系統,具有成熟資料庫的所有特性。Neo4j分為商業版和社群版。其中社群版是開源的,是一個本地資料庫;商業版則實現了分散式功能,能夠將多臺機器構造成資料庫叢集來提供服務。它採用的查詢語言是cypher,可以透過Neo4j實現知識圖譜節點、關係的建立(create命令)和查詢(match命令)。

Neo4j在Linux上的安裝非常簡單,到官網上下載對應的安裝包,解壓後安裝到bin目錄,然後透過./neo4j start命令啟動。我們可以在:

http://localhost:7474/browser/

訪問視覺化介面(見圖4),可以在這個Web頁面上透過cypher和圖資料庫進行互動。

圖4 Neo4j Web視覺化介面

阿里巴巴內部也研發了圖資料庫用於儲存知識圖譜資料,如GDB、iGraph等,其中GDB(Graph Database,圖資料庫)是由阿里雲自主研發的,是一種支援Property Graph圖模型、用於處理高度連線資料查詢與儲存的實時、可靠的線上資料庫。它支援Apache TinkerPop Gremlin查詢語言,可以快速構建基於高度連線的資料集的應用程式。GDB非常適合用於社交網路、欺詐檢測、推薦引擎、實時圖譜、網路/IT運營這類需要用到高度互連資料集的場景。目前GDB正處於公測期間,阿里巴巴內部很多知識圖譜業務都基於GDB儲存,它具備如下優勢:

  • 標準圖查詢語言:支援屬性圖,高度相容Gremlin圖查詢語言。
  • 高度最佳化的自研引擎:高度最佳化的自研圖計算層和儲存層,透過雲盤多副本方案保障資料超高可靠性,支援ACID事務。
  • 服務高可用:支援高可用例項,單節點出故障後業務會迅速轉移到其他節點,從而保障了業務的連續性。
  • 易運維:提供備份恢復、自動升級、監控告警、故障切換等豐富的運維功能,大幅降低運維成本。

04

知識表示

知識表示是指在不同的語義環境下有不同的含義,例如在圖譜構建階段,知識表示可以認為是基於RDF用三元組形式,如“<實體,屬性,值>”或者“<實體,關係,實體>”(也有描述為<主語,謂詞,賓語>)來表徵知識圖譜的語義資訊的。在知識圖譜接入上層應用場景後,尤其是隨著深度學習方法的廣泛採用,如何將知識圖譜和深度學習模型融合,藉助知識圖譜引入領域知識來提升深度學習模型效能,引起了學術界和工業界的廣泛關注。

本節將重點介紹基於知識表示的學習方法,介紹如何將知識圖譜中的高度稀疏的實體、關係表示成一個低維、稠密向量。

1. 距離模型

結構表示(Structured Embedding,SE),將每個實體用d維的向量表示,所有實體被投影到同一個d維向量空間中,同時,為了區分關係的有向特徵,為每個關係r定義了2個矩陣Mr,1,Mr,2∈Rd*d,用於三元組中頭實體和尾實體的投影操作,將頭實體、尾實體投影到關係r的空間中來計算兩個向量的距離,公式為:

用以反映2個實體在關係r下的語義相關度,距離越小,說明這2個實體存在這種關係的可能性越大。然而該模型有一個重要缺陷,它使用頭、尾兩個不同的矩陣進行投影,這個矩陣相互獨立沒有協同,往往無法精確刻畫兩個實體基於關係的語義聯絡。為了解決這個問題,後續出現了單層神經網路模型(Single Layer Model,SLM)、語義匹配能量模型(Semantic Matching Energy,SME)等方法,如RESCAL。RESACL模型是一個基於矩陣分解的模型,在該模型中,將整個知識圖譜編碼為一個三維張量X,如果三元組存在,則Xhrt=1,否則為0。張量分解的目標是要將每個三元組對應的張量分解為實體和關係,使得Xhrt儘量接近lhMrlt,函式可表示為:

2. 翻譯模型

自從Mikolov等人於2013年提出word2vec模型開始,表示學習Embedding在自然語言處理領域受到廣泛關注,該模型發現在詞向量空間中平移(加減)不變現象,即:

其中C(w)表示w透過word2vec得到的詞向量。受這類類比推理實驗啟發,Bordes等人提出了TransE模型,之後又出現多種衍生模型,如TransH、TransR等。TransE將知識庫中的關係看作實體間的平移向量,對於每個三元組,TransE希望:

即期望頭節點向量沿關係平移後,儘量和尾節點向量重合(見圖5)。

圖5 TransE 模型

模型的損失函式定義如下:

“||”表示取模運算,如L2距離。

在實際學習過程中,為了增強模型知識表示的區分能力,TransE採用了最大間隔,目標函式為:

其中,S是正確的三元組集合,S-是錯誤的三元組集合,γ為正確三元組得分和錯誤三元組得分之間的間隔距離,是一個超引數。S-的產生與負樣本的生成方式不同,不透過直接隨機取樣三元組,而是將S中每一個三元組的頭實體、關係、尾實體其中之一隨機替換成其他實體或關係來構造。

TransE模型簡單有效,後續很多知識表示學習方法都是以此為代表進行拓展的。例如TransH模型,為了解決TransE在處理1-N、N-1、N-N複雜關係時的侷限性,提出讓一個實體在不同關係下擁有不同的表示。另外,雖然TransH模型使得每個實體在不同關係下擁有了不同的表示,但是它仍然假設實體和關係處於統一語義空間中,這和我們一般的認知有點不同,於是有學者提出了TransR模型。TransR模型首先透過一個投影矩陣Mr把實體投影到關係的語義空間,然後再進行關係類比推理(見圖6):

圖6 各種翻譯模型

05

電商知識圖譜應用

知識圖譜提供了一種更好的組織、管理和利用海量資訊的方式,描述了現實世界中的概念、實體以及它們之間的關係。自從谷歌提出知識圖譜並應用在搜尋引擎中,用以提升搜尋引擎使用體驗,提高搜尋引擎質量以後,知識圖譜在各種垂直領域場景中都扮演了重要的角色。

隨著消費升級,行業會場+爆款的導購模式已經無法滿足消費者心智,人們對貨品的需求逐漸轉化為對場景的需求。透過場景重新定義貨品的需求產生,場景運營平臺應運而生。場景運營平臺透過對商品知識的挖掘,將具有共同特徵的商品透過演算法模型聚合在一起,形成事實上的跨品類商品搭配。在演算法端完成場景-商品知識圖譜的建設後,通過當前訴求挖掘消費者深層次訴求,推薦某個場景下互相搭配的商品,給予消費者對應場景下一站式的購物體驗,達到鼓勵消費者跨類目購買行為及提升客單價的目的。例如在阿里電商平臺,導購場景就有了很好的應用,並取得了不錯的效果。

1688團隊在阿里內部資料和演算法基建的基礎上,基於B類商品特徵,構建了自己的商品知識圖譜,以CPV的方式表徵一個商品,具體商品表徵如圖7所示。

圖7 商品CPV表徵示意圖

任何知識圖譜應用的構建,整體上都要經歷如下幾個步驟:文字等非結構化或半結構化資訊→結構化的知識圖譜→知識圖譜表徵→特定應用場景。1688的商品知識圖譜,在阿里通用的電商NLP技術的基礎上,完成了半結構化資訊向結構化的知識圖譜轉化的步驟,但是中間存在大量質量較差、語義模糊甚至錯誤的資料。為了最佳化這部分資料,阿里做了大量的工作,包括實體合併、消歧、長尾資料裁剪等。

針對初步加工過的資料,還需要大量的人工來標註清洗,以發揮資料的價值。而資料標註清洗這種累活一般是找專門的資料標註公司外包完成的。為了減少專門標註的成本,我們採用了“以戰養兵”的思路,讓運營直接使用這份經過初步加工的資料,透過收集運營的操作資料,快速反饋到演算法模型中並不斷最佳化結果,形成運營-資料的相互反饋,如圖8所示,讓工具越用越順手,越用越好。

圖8 主題會場搭建流程示意圖

具體的主題錄入方式是:運營指定一個主題場景,比如婚慶主題,在指定主題下涵蓋商品的類目、屬性、屬性值。比如列舉一組配置,可以搭配後臺配置截圖。透過行業運營專家的經驗將主題和相應的商品圖譜關聯起來,我們可以明確哪些CPV資料存在業務關聯,以及運營認為哪些資料是有效的。除了主題資料的人工錄入,我們還配套了相關的自動化頁面搭建方案。

電商經常需要做促銷活動,活動會場頁面的製作需要投入大量人力,常見的活動頁面如圖9所示。

圖9 常見電商促銷活動頁面圖

這種活動類導購頁面的搭建,核心是站在買家的角度幫助他們發現和選擇商品,如圖10所示。其中,什麼商品、如何挑選、怎樣呈現就是導購頁面包含的核心要素和業務流程。對映到技術領域,則會涉及建立頁面、資料分析、投放策略的三個方面。

圖10 活動類導購頁面搭建流程示意圖

1688在活動頁面製作方面沉澱多年,有眾多實用的技術和工具供運營使用,如頁面元件化搭建產品(積木盒子、奇美拉)、指標選品工具(選品庫)、商品排序投放產品(投放平臺)等。這些產品都有各自的細分業務域,運營通常需要跳轉到多個平臺進行配置,才能完成一張活動頁面的搭建,整體流程如圖11所示。

圖11 活動頁面搭建平臺示意圖

這就像是辦證件,A視窗讓你去B視窗登記,B視窗讓你去C視窗填表。我們都圍著一個個的“視窗”轉,這是一種以資源為中心的工作方式。以前讓使用者圍繞著資源轉,是為了最大化資源的使用效率,但是在今天這個人力成本高的時代,需要從資源視角轉向使用者視角,讓資源圍著使用者轉,這樣可以最大化價值流動效率。

我們通過幾個月的努力,將十餘個系統打通,實現了資料來源標準化方案、資料頁面繫結方案、頁面自動多端搭建方案、投放自動化方案等,形成了如圖12所示的產品體系。

圖12 會場搭建產品體系示意圖

透過將系統打通,使得運營搭建一個頁面的配置工作量減少了83.2%。而在剩餘的16.8%的工作裡,有87%是選品工作。藉助主題會場,我們希望將運營選品的工作量也降低50%以上,並藉助資料和演算法,實現智慧選品、智慧搭建、智慧投放。

今天的分享就到這裡,謝謝大家。

——本文摘自機械工業出版社華章圖書《阿里巴巴B2B電商演算法實戰》,參考文獻請參見原書。

文章作者:阿里CBU技術部

內容來源:《阿里巴巴B2B電商演算法實戰》

分類: 旅遊
時間: 2021-12-20

相關文章

全域旅遊看章丘:從“龍山聖地”到“明水古城”
5000年前,當黃河中下游孕育著中華文明,龍山文化也在山東章丘生了根.這是章丘"來龍去脈"中的第一次"來龍". 只不過,在1928年之前並沒有"龍山文 ...

女人過了40歲,不管穿裙子還是褲子,少穿這5種顏色,顯黑還掉價

女人過了40歲,不管穿裙子還是褲子,少穿這5種顏色,顯黑還掉價
對於愛美的女性來說,外在形象最為重要,即使是過了40歲,也不妨礙愛美天性的散發.女人要想保持年輕,一是心態需要一直積極樂觀,相由心生,發自內心的笑容最為優雅溫柔.二是穿衣打扮,需要根據自身的身材特點. ...

小時候用過的一角紙幣,有3種顏色,有2種漲了數萬倍

小時候用過的一角紙幣,有3種顏色,有2種漲了數萬倍
第三套人民幣從1962年開始發行的,使用了30多年時間,一直到2000年才停止流通.相信不少朋友小時候就經常使用它們.其中,1角紙幣更是最常使用的面值之一,算是大家的老朋友了. 不過你留意過嗎?三版幣 ...

早秋買衣服,關鍵要選對顏色!試試這6種顏色,好穿好搭不過時

早秋買衣服,關鍵要選對顏色!試試這6種顏色,好穿好搭不過時
秋天,百搭不挑人的基礎款風衣.針織衫.襯衫.西裝...是很多人的穿衣首選,無論是上班通勤還是節假日出遊旅行,基礎款能能隨時隨地切換風格,伴你出席多個場合.經過歲月洗禮,基本上怎麼穿都不容易出錯,但是, ...

兩種顏色=16套造型,真的太百搭了,時髦範爆棚

兩種顏色=16套造型,真的太百搭了,時髦範爆棚
Hi,這裡是搭搭, 一個專注穿衣打扮,專屬你美麗的時尚達人! 雖然秋季還沒有徹底來到,但是這忽冷忽熱的溫差變化也足夠讓人頭疼了,早上還是需要穿外套的溫度,到了中午穿短袖都覺得熱. 面對這種天氣,如何搭 ...

日常搭配一套衣服最好不要超過三種顏色

日常搭配一套衣服最好不要超過三種顏色
全身搭配不要超過3種顏色,是深色系!黑白灰金銀無彩色不算在色系裡邊.想要有些個性化的追求的話,那不妨每天換一種顏色. 不超過三個顏色首先是指色系,不包括點綴色(點綴色是面積很小的顏色比如顏色不一樣的扣 ...

奔四奔五的女人,少穿“藏藍色”!今秋流行這三種顏色,優雅減齡

奔四奔五的女人,少穿“藏藍色”!今秋流行這三種顏色,優雅減齡
藏藍色作為顯白色中的主力大軍,確實成為不少中年女性的心頭愛.然而現在你還只知道藏藍色的話那就落伍啦,今年流行這三種顏色,輕熟齡女性跟著穿起來凸顯優雅知性和大方,重點是真的顯貴還減齡! 中年女性在搭配時 ...

這三種顏色的食物對眼睛有益,日常多吃點

這三種顏色的食物對眼睛有益,日常多吃點
人到了一定的年齡 眼睛就會容易疲勞 有時會疼痛.睜不開眼 視力出現衰退 "眼睛是內臟的鏡子" 眼睛出現故障是內臟 特別是肝臟.腎臟衰退 和老化的訊號 那你知道眼睛 最喜歡哪些食物嗎 ...

海寧徐志摩舊居,徐志摩親手打造的“愛巢”,中西合璧式的小洋樓

海寧徐志摩舊居,徐志摩親手打造的“愛巢”,中西合璧式的小洋樓
海寧市地處浙江省北部.錢塘江北岸,這是一座有著悠久歷史的小城,其名始於南朝陳武帝永定二年,至今已1400多年曆史,寓意著"海洪寧靜".海寧文化底蘊十分深厚,自古以來文人輩出,我們所 ...

秋冬買大衣,儘量減少黑白灰,這幾種顏色更高階,襯托膚色顯白

秋冬買大衣,儘量減少黑白灰,這幾種顏色更高階,襯托膚色顯白
現在也已經到了秋冬這個時間段了,隨著時間慢慢地流逝,秋冬也已經開始慢慢變冷,特別是早晚溫差已經逐漸變大,所以也已經開始在準備秋冬衣服了,但其實秋冬衣服很多人的印象裡就是黑白灰,這幾個款式,但今年除了黑 ...

奔四奔五的女人,不管裙子還是褲子,少穿這3種顏色,顯黑還掉價

奔四奔五的女人,不管裙子還是褲子,少穿這3種顏色,顯黑還掉價
多彩的生活都是用顏色堆積起來的,如果世界非黑即白,那一定是毫無生氣的.所以色彩的力量顯得尤其重要,特別是服裝,它的作用表現得更加出眾.每一種顏色都有不同年齡層特定的專屬,說起中年女性,顯白顯瘦還要顯高 ...

女人年過45歲,建議少穿“藏藍色”!今秋流行這3種顏色,真減齡

女人年過45歲,建議少穿“藏藍色”!今秋流行這3種顏色,真減齡
很多女性在年過40歲以後對於自己容貌的自信心就大大降低了,這一點在很多45歲左右女人選擇的服飾顏色上體現得特別明顯.特別是顏色比較百搭卻有點顯老的"藏藍色",可以說是最經常出在這個 ...

真正會打扮的女人,穿裙子都離不開這3種顏色,洋氣顯白有氣質

真正會打扮的女人,穿裙子都離不開這3種顏色,洋氣顯白有氣質
當所有人都在穿黑白灰時,你想要脫穎而出就需要在款式上下功夫:而當款式上挑不出亮點的時候,顏色的選擇就至關重要. 就像穿裙子一樣,想要展現優雅又或氛圍感的狀態,總需要用顏色去點綴其精髓.舒適溫柔的裙子, ...

去四川旅遊時,這4種小吃最好不要錯過,不然就算是“白去”一次

去四川旅遊時,這4種小吃最好不要錯過,不然就算是“白去”一次
中國的美食總能吸引到許多人,其他國家的人總會想著要來中國旅行,當然了,國人也會去很城市看看,關注一些其他城市的美食,對於這樣的美食,大家都會有很多的瞭解,只是,沒有去過就不是也很清楚.四川是許多人都很 ...

一種顏色,趣識中國傳統繪畫顏料

一種顏色,趣識中國傳統繪畫顏料
7月1日,由清華大學藝術博物館.中央美術學院美術館和北京畫院共同主辦的"紅--色彩與中國畫研究系列展"在北京畫院美術館面向公眾展出.此次展覽匯聚了國內重要文博機構藏吳昌碩.齊白石. ...

提花套頭衫,10種顏色搭配,色彩沉穩豐富,漂亮難織

提花套頭衫,10種顏色搭配,色彩沉穩豐富,漂亮難織
提花套頭衫,10種顏色搭配,色彩沉穩豐富,漂亮難織.

提花開衫,圓領落肩,5種顏色搭配沉穩,方格圖案,簡約好看

提花開衫,圓領落肩,5種顏色搭配沉穩,方格圖案,簡約好看
提花開衫,圓領落肩,5種顏色搭配沉穩,方格圖案,簡約好看.

“鳥中西施”現身上海公園,全身羽毛有8種顏色,全國不到2000只

“鳥中西施”現身上海公園,全身羽毛有8種顏色,全國不到2000只
鳥類大都喜歡生活在山林田野之間,越是罕見的鳥類距人類聚集區越遠,不過最近上海一位阿婆卻在公園中撿到了一隻罕見的小鳥,這隻小鳥全身有著多種顏色,而且色彩十分亮麗,來看看: 這種鳥個頭不大,頭尾長約20釐 ...

免費!北京超小眾寶藏莊園,濃濃法式風情!小洋樓絕美!

免費!北京超小眾寶藏莊園,濃濃法式風情!小洋樓絕美!
法式風情的免費公園 這些天來 小北推薦過的公園不少 野花爛漫的涼水河公園 向日葵花海的奧森公園 歐式風情的人定湖公園 -- 自詡"公園小達人"的小北 卻還是被這個公園驚豔到了! 它 ...

塞班島最美沙灘之一,海水呈七種顏色,零差評旅遊景點

塞班島最美沙灘之一,海水呈七種顏色,零差評旅遊景點
美麗的塞班島景點眾多,太平洋賦予了這裡太多獨特的景色,而塞班島上的每個景點又是各具特色,每一個都有自己的故事和風情. 到了海島旅遊,海灘是一定要打卡的地方,踩水玩沙,看海景看夕陽都是經典專案,那麼麥克 ...