情感分析又被稱為情感傾向性分析或意見挖掘,是從使用者意見中提取資訊的過程。文字情感分析則致力於將單詞、句子、段落和篇章對映到一組相對應的情感類別上,繼而得到一個可用於劃分情感狀態的心理學模型。
文字情感分析是輿情事件研判過程中的關鍵一步。當我們基於機器現成的輿情事件情感佔比結果,研判輿情態勢、針對性的採取相應策略時,也需要停下來想一想,輿情情感被測量的背後機理是什麼?
總體而言,文字情感分析通常要經過以下幾個過程:一是文字清洗。篩除與文字無關的噪聲資料。二是對文字進行分詞處理。目的是將文字分為單獨的詞,然後轉換為詞向量,也就是將自然語言轉化為機器語言,隨即使用模型處理資料。三是獲取特徵。從這一步開始有四種不同的方法,分別是基於情感詞典與規則的方法、傳統機器學習方法、深度學習方法、多策略混合方法。四是使用模型分類。利用四種方法特有的模型對詞、句、篇章蘊含的情感進行分析和預測其類別。五是根據預測結果,把文字分到相應的類別中。
01
文字清洗
在文字清洗階段,首先對文字資料進行去停用詞、去除換行符等清洗工作,統一英文資料、集中英文字母的大小寫,並將資料序列化。這個過程由專門的成熟工具完成。
02
分詞
由於計算機不能夠直接理解人類的自然語言,對自然語言進行建模是讓計算機能夠運用自然語言進行計算的第一步。在自然語言處理任務中,首先需要考慮詞如何在計算機中表示。研究自然語言的時候,都是需要把大量文字劃分為最小知識單元,也就是把文章、段落、句子都劃分為詞。
分詞演算法的原理是基於詞典進行掃描,生成有向無環圖;然後是根據詞頻進行最大化的切分與組合;最後使用基於漢字成詞能力的HMM模型提取新詞(該模型主要使用了Viterbi演算法)完成對中文文字的詞法分析。精確模式、全模式和搜尋引擎模式是三種分詞模式。精確模式就是將詞最準確的劃分出來,沒有多餘的詞,這種分詞方法最適用於對文字進行一些分析操作。分詞原理及過程見下圖。
03
獲取特徵
特徵是一個對於問題建模有意義的屬性,可以表達更多的跟問題上下文有關的內容。
基於情感詞典與規則的方法獲取特徵,需要抽取出情感詞,即從文字中自動識別出情感詞來。如基於有限狀態機(FiniteStateMachine,FSM)的匹配方法。情感元素抽取過程分三個步驟。第一步,情感元素匹配,主要是將經過預處理的評論語料對映到特徵詞和否定副詞的列表中,這些列表根據在元素評論中出現的順序進行排序。第二步,情感元素抽取,將列表資料作為FSM的輸入,根據上下文和情感詞尋找特徵意見(Feature-Opinion,F-O)對,並確定每對F-O對的情感極性。第三步,情感元素過濾,利用規則篩選出正確的F-O對。
機器學習中提升效率和獲得更好結果高度依賴於資料預處理,同時整個學習過程70%工作量也在此,資料預處理包括清洗、轉換、規約三個部分,其中的規約是一個降維過程,在機器學習中透過特徵工程實現。特徵工程包括特徵提取和特徵選擇兩類,前者是保留所有特徵但區別對待,如因子分析;後者是隻留下最有效的特徵,如矩陣的奇異值分解、Filter、Wrapper、Embedded等。是一個人工+機器共同實現的方法。
特徵學習是深度學習中的用語,與機器學習中用於降維的特徵工程不一樣,是主動尋找隱藏特徵,深度學習由多層網路構成,每一層學習一個特徵。如CNN中透過卷積運算和池化方法構成的一層人工神經元集合中,透過前饋方法就能學習出影象、語言、文字的一個特徵。基於深度學習方法獲得特徵都是完全自動實現的。
多策略混合方法在獲得特徵的時候,利用情感詞抽取、特徵學習和特徵工程三種方法中的一種或多種。
04
使用模型進行情感分類
基於情感詞典與規則的方法。該方法主要依賴於情感詞典的構建,是指利用情感詞典獲取文件中情感詞的情感值,再透過加權計算確定文件的整體情感傾向。使用此方法時不考慮詞語之間的聯絡,詞語的情感值不會隨著應用領域和上下文的變化而變化,因此需要針對特定領域建立相關的情感詞典提高分類的準確率。情感詞典是情感分析系統的基礎知識庫,是數字、文字與符號的集合。在缺乏大量訓練資料集的情況下,基於詞典與規則的方法相對能取得較好的分類結果且易於理解,但是網路用語不斷湧現,情感詞典需要不斷更新擴充套件以提高分類的準確率。
基於機器學習的方法,是以帶有情感標籤的資料訓練出一個情感分類器,再利用分類器預測測試集中文字的情感傾向,常用的淺層機器學習分類演算法有最大熵、樸素貝葉斯和支援向量機(SVM)等。
與情感詞典的方法相比,機器學習方法更簡單,能取得更高的分類準確度,但是機器學習是一個監督學習方法,需要對資料集進行三類情感的類別標註。大規模高質量的資料標註耗費極高的人工成本,人為主觀的資料標註結果準確和一致性也不易保證,而模型引數的訓練完全依賴資料集類標的準確性,因此成本壓力和大量資料過載情況下都會影響其可靠和可實現性。
基於深度學習的方法。深度學習DL(DeepLearning)是指透過多層神經網路擬合訓練樣本分佈的一種機器學習方法,它緩解了傳統神經網路演算法在訓練多層神經網路時出現的區域性最優問題,且其訓練過程不依賴於樣本標籤資訊。
在情感分析的深度學習方法中,常常看到注意力機制,如CNN+注意力機制等。注意力機制是一種類似人腦的注意力分配機制,它對重要的區域投入更多的資源,以獲取更多的細節,對無用的資訊則進行抑制,AI領域的從業者把這種機制引入到一些模型裡,並取得了成功。
與基於情感詞典與機器學習的方法相比,深度學習有更強的表達能力和模型泛化能力,但是缺乏大規模的訓練資料也是深度學習在情感分類中遇到的問題。
多策略混合的方法,相較於單一模型,將領域新詞或構建的主題情感詞典與機器學習、深度學習模型相結合,可以提高情感傾向性分析的準確率。多策略混合的方法一般分析問題更為全面和深入,具有一定優勢,但是多策略混合方法的模型複雜度與訓練難度更高,比單一模型更難以實現。
針對不同情感反應有效進行輿情處置
現階段,輿情事件不同情感分佈主要分為三種情形,分別有不同的處理方法。一是敏感跟帖所佔比重很高,說明負面觀點比較多,涉事主體需儘快採取處置措施避免事態擴大。二是正面跟帖比重高,則可以設法延長輿情週期,提升宣傳效果。三是中性跟帖比較多,涉事主體則需考慮在鞏固中性情感底盤的同時,如何進一步“提正抑負”。對於以上三種狀態提出了基本的應對策略。但是實際輿情應對工作中,處理起來更為複雜。
透過機器快捷判定輿情事件的初步情況,能夠為人的綜合判斷和設計應對方案提供一個好的路線圖,以便於輿情苗頭出現之際快速發現訊號、輿情發酵過程中檢驗應對有效性,以及在後期科學評判處置效果。事實上,機器幫我們做一個先期的關於輿情事件中公眾敏感、中性、和正面三種情感的分佈和時間上的發展趨勢,而涉事主體或者政府部門該如何處置,還是需要專業人員提供個性化的多維度、多因素基於現狀、資源約束條件下對結果預期的最優條件下采取的策略組合,這是充分發揮人的能動性和實現應對有效性的重要路徑。因此,技術手段結合人類智力是輿情及時發現、有效處置、聲譽修復的重要方法。
參考文獻
[1]王婷,楊文忠.文字情感分析方法研究綜述[J].計算機工程與應用,2021,57(12):11-24.
[2]鍾佳娃,劉巍,王思麗,楊恆.文字情感分析方法及應用綜述[J].資料分析與知識發現,2021,5(06):1-13.
[3]楊開漠,吳明芬,陳濤.廣義文字情感分析綜述[J].計算機應用,2019,39(S2):6-14.
[4]劉爽,趙景秀,楊紅亞,徐冠華.文字情感分析綜述[J].軟體導刊,2018,17(06):1-4+21.
[5]楊青,張亞文,朱麗,吳濤.基於注意力機制和BiGRU融合的文字情感分析[J].計算機科學,2021,48(11):307-311.
[6]周曉蘭,戴香平,陳洪龍.基於樸素貝葉斯模型的評論文字情感分析[J].科學技術創新,2021(33):88-90.
[7]陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.(ChenLong,GuanZiyu,HeJinhong,etal.ASurveyonSentimentClassification[J].JournalofComputerResearchandDevelopment,2017,54(6):1150-1170.)
作者:人民網輿情資料中心 李偉
編輯:楊心茹 | 責編:朱玉萍 夏玥