12 月 2 日,InfoQ 獲悉,達摩院深度語言模型體系 AliceMind 釋出中文社群首個表格預訓練模型 SDCUP,該模型在全球權威表格資料集 WikiSQL、SQuALL 上取得了業界最優效果,且模型和訓練程式碼均已對外開源。
開源地址:
https://github.com/alibaba/AliceMind
表格是應用普遍的結構化資料,也是智慧對話系統和搜尋引擎的重要答案來源。但傳統表格查詢需技術人員撰寫專業查詢語句,阻礙了表格查詢的大規模應用。
新興的表格問答技術,可將自然語言轉換為查詢語句,使使用者能透過簡單問句直接與表格資料庫互動,具有廣泛應用前景。
不過,由於表格內容複雜多樣、涉及各行業專業知識,表格問答任務一直是自然語言處理領域的難題。此前,谷歌、微軟、亞馬遜等海外公司開展了相關探索,但在中文場景,該方向處於空白。
本次,達摩院對話智慧團隊提出了首箇中文表格預訓練模型 SDCUP,其基於“模式依存”方法,透過模型直接預測自然語言與表格結構內容的關鍵詞對映,提升了表格問答的準確率。
具體而言,即參考語義依存分析方法對 Schema Dependency 任務建模,使用全連線網路獲取每個節點作為父親節點和作為孩子節點的語義表示,然後使用雙仿射網路預測每個邊存在的機率和該邊關係型別的機率。同時,團隊使用了模仿人類的“課程學習”方法減少資料噪聲。
SDCUP 生成 SQL 示例
在耶魯大學釋出的業界最大規模的英文文字-表格資料集 WikiSQL,以及微軟構建的英文文字-表格高難度預測任務 SQuALL 資料集上,SDCUP 模型均取得業界最優效果。在達摩院構建的表格問答中文資料集 TaBLUE 上,SDCUP 比同參數規模 BERT 模型效果提升約 3 個百分點。
SDCUP 在 WikiSQL 資料集上取得業界最優效果
SDCUP 在 SQuALL 資料集上取得業界最優效果
達摩院資深演算法專家李永彬介紹,SDCUP 模型是達摩院表格對話技術系列研發的一部分,後續將持續對外開源。其相關技術先後在四大國際公開資料集 WikiSQL、Spider、SParC、CoSQL 上取得第一。
據瞭解,該技術完成了產品化,已透過阿里雲智慧客服為政務、金融、零售等行業客戶提供表格問答和資料庫自然互動服務。