輿情情感是如何被測量的？丨輿情技戰數

情感分析又被稱為情感傾向性分析或意見挖掘，是從使用者意見中提取資訊的過程。文字情感分析則致力於將單詞、句子、段落和篇章對映到一組相對應的情感類別上，繼而得到一個可用於劃分情感狀態的心理學模型。

文字情感分析是輿情事件研判過程中的關鍵一步。當我們基於機器現成的輿情事件情感佔比結果，研判輿情態勢、針對性的採取相應策略時，也需要停下來想一想，輿情情感被測量的背後機理是什麼？

總體而言，文字情感分析通常要經過以下幾個過程：一是文字清洗。篩除與文字無關的噪聲資料。二是對文字進行分詞處理。目的是將文字分為單獨的詞，然後轉換為詞向量，也就是將自然語言轉化為機器語言，隨即使用模型處理資料。三是獲取特徵。從這一步開始有四種不同的方法，分別是基於情感詞典與規則的方法、傳統機器學習方法、深度學習方法、多策略混合方法。四是使用模型分類。利用四種方法特有的模型對詞、句、篇章蘊含的情感進行分析和預測其類別。五是根據預測結果，把文字分到相應的類別中。

圖：文字情感分析通用過程及使用方法

文字清洗

在文字清洗階段，首先對文字資料進行去停用詞、去除換行符等清洗工作，統一英文資料、集中英文字母的大小寫，並將資料序列化。這個過程由專門的成熟工具完成。

分詞

由於計算機不能夠直接理解人類的自然語言，對自然語言進行建模是讓計算機能夠運用自然語言進行計算的第一步。在自然語言處理任務中，首先需要考慮詞如何在計算機中表示。研究自然語言的時候，都是需要把大量文字劃分為最小知識單元，也就是把文章、段落、句子都劃分為詞。

分詞演算法的原理是基於詞典進行掃描，生成有向無環圖；然後是根據詞頻進行最大化的切分與組合；最後使用基於漢字成詞能力的HMM模型提取新詞（該模型主要使用了Viterbi演算法）完成對中文文字的詞法分析。精確模式、全模式和搜尋引擎模式是三種分詞模式。精確模式就是將詞最準確的劃分出來，沒有多餘的詞，這種分詞方法最適用於對文字進行一些分析操作。分詞原理及過程見下圖。

圖：詞對映到詞向量空間過程

獲取特徵

特徵是一個對於問題建模有意義的屬性，可以表達更多的跟問題上下文有關的內容。

基於情感詞典與規則的方法獲取特徵，需要抽取出情感詞，即從文字中自動識別出情感詞來。如基於有限狀態機（FiniteStateMachine，FSM）的匹配方法。情感元素抽取過程分三個步驟。第一步，情感元素匹配，主要是將經過預處理的評論語料對映到特徵詞和否定副詞的列表中，這些列表根據在元素評論中出現的順序進行排序。第二步，情感元素抽取，將列表資料作為FSM的輸入，根據上下文和情感詞尋找特徵意見（Feature-Opinion，F-O）對，並確定每對F-O對的情感極性。第三步，情感元素過濾，利用規則篩選出正確的F-O對。

機器學習中提升效率和獲得更好結果高度依賴於資料預處理，同時整個學習過程70％工作量也在此，資料預處理包括清洗、轉換、規約三個部分，其中的規約是一個降維過程，在機器學習中透過特徵工程實現。特徵工程包括特徵提取和特徵選擇兩類，前者是保留所有特徵但區別對待，如因子分析；後者是隻留下最有效的特徵，如矩陣的奇異值分解、Filter、Wrapper、Embedded等。是一個人工+機器共同實現的方法。

特徵學習是深度學習中的用語，與機器學習中用於降維的特徵工程不一樣，是主動尋找隱藏特徵，深度學習由多層網路構成，每一層學習一個特徵。如CNN中透過卷積運算和池化方法構成的一層人工神經元集合中，透過前饋方法就能學習出影象、語言、文字的一個特徵。基於深度學習方法獲得特徵都是完全自動實現的。

多策略混合方法在獲得特徵的時候，利用情感詞抽取、特徵學習和特徵工程三種方法中的一種或多種。

使用模型進行情感分類

基於情感詞典與規則的方法。該方法主要依賴於情感詞典的構建，是指利用情感詞典獲取文件中情感詞的情感值，再透過加權計算確定文件的整體情感傾向。使用此方法時不考慮詞語之間的聯絡，詞語的情感值不會隨著應用領域和上下文的變化而變化，因此需要針對特定領域建立相關的情感詞典提高分類的準確率。情感詞典是情感分析系統的基礎知識庫，是數字、文字與符號的集合。在缺乏大量訓練資料集的情況下，基於詞典與規則的方法相對能取得較好的分類結果且易於理解，但是網路用語不斷湧現，情感詞典需要不斷更新擴充套件以提高分類的準確率。

基於機器學習的方法，是以帶有情感標籤的資料訓練出一個情感分類器，再利用分類器預測測試集中文字的情感傾向，常用的淺層機器學習分類演算法有最大熵、樸素貝葉斯和支援向量機（SVM）等。

與情感詞典的方法相比，機器學習方法更簡單，能取得更高的分類準確度，但是機器學習是一個監督學習方法，需要對資料集進行三類情感的類別標註。大規模高質量的資料標註耗費極高的人工成本，人為主觀的資料標註結果準確和一致性也不易保證，而模型引數的訓練完全依賴資料集類標的準確性，因此成本壓力和大量資料過載情況下都會影響其可靠和可實現性。

基於深度學習的方法。深度學習DL（DeepLearning）是指透過多層神經網路擬合訓練樣本分佈的一種機器學習方法，它緩解了傳統神經網路演算法在訓練多層神經網路時出現的區域性最優問題，且其訓練過程不依賴於樣本標籤資訊。

在情感分析的深度學習方法中，常常看到注意力機制，如CNN+注意力機制等。注意力機制是一種類似人腦的注意力分配機制，它對重要的區域投入更多的資源，以獲取更多的細節，對無用的資訊則進行抑制，AI領域的從業者把這種機制引入到一些模型裡，並取得了成功。

與基於情感詞典與機器學習的方法相比，深度學習有更強的表達能力和模型泛化能力，但是缺乏大規模的訓練資料也是深度學習在情感分類中遇到的問題。

多策略混合的方法，相較於單一模型，將領域新詞或構建的主題情感詞典與機器學習、深度學習模型相結合，可以提高情感傾向性分析的準確率。多策略混合的方法一般分析問題更為全面和深入，具有一定優勢，但是多策略混合方法的模型複雜度與訓練難度更高，比單一模型更難以實現。

針對不同情感反應有效進行輿情處置

現階段，輿情事件不同情感分佈主要分為三種情形，分別有不同的處理方法。一是敏感跟帖所佔比重很高，說明負面觀點比較多，涉事主體需儘快採取處置措施避免事態擴大。二是正面跟帖比重高，則可以設法延長輿情週期，提升宣傳效果。三是中性跟帖比較多，涉事主體則需考慮在鞏固中性情感底盤的同時，如何進一步“提正抑負”。對於以上三種狀態提出了基本的應對策略。但是實際輿情應對工作中，處理起來更為複雜。

透過機器快捷判定輿情事件的初步情況，能夠為人的綜合判斷和設計應對方案提供一個好的路線圖，以便於輿情苗頭出現之際快速發現訊號、輿情發酵過程中檢驗應對有效性，以及在後期科學評判處置效果。事實上，機器幫我們做一個先期的關於輿情事件中公眾敏感、中性、和正面三種情感的分佈和時間上的發展趨勢，而涉事主體或者政府部門該如何處置，還是需要專業人員提供個性化的多維度、多因素基於現狀、資源約束條件下對結果預期的最優條件下采取的策略組合，這是充分發揮人的能動性和實現應對有效性的重要路徑。因此，技術手段結合人類智力是輿情及時發現、有效處置、聲譽修復的重要方法。

參考文獻

[1]王婷,楊文忠.文字情感分析方法研究綜述[J].計算機工程與應用,2021,57(12):11-24.

[2]鍾佳娃,劉巍,王思麗,楊恆.文字情感分析方法及應用綜述[J].資料分析與知識發現,2021,5(06):1-13.

[3]楊開漠,吳明芬,陳濤.廣義文字情感分析綜述[J].計算機應用,2019,39(S2):6-14.

[4]劉爽,趙景秀,楊紅亞,徐冠華.文字情感分析綜述[J].軟體導刊,2018,17(06):1-4+21.

[5]楊青,張亞文,朱麗,吳濤.基於注意力機制和BiGRU融合的文字情感分析[J].計算機科學,2021,48(11):307-311.

[6]周曉蘭,戴香平,陳洪龍.基於樸素貝葉斯模型的評論文字情感分析[J].科學技術創新,2021(33):88-90.

[7]陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.(ChenLong,GuanZiyu,HeJinhong,etal.ASurveyonSentimentClassification[J].JournalofComputerResearchandDevelopment,2017,54(6):1150-1170.)

作者：人民網輿情資料中心李偉

編輯：楊心茹 | 責編：朱玉萍夏玥

你的每個贊和在看，我都喜歡

分類： 娛樂

時間： 2022-01-10

《鏡雙城》強勢來襲，李易峰、陳鈺琪領銜，“紅顏陣容”太驚豔
<鏡雙城>強勢來襲,李易峰.陳鈺琪領銜,"紅顏陣容"太驚豔說到古裝劇<鏡雙城>,自籌備以來就未播先火,成了很多觀眾翹首以盼的人氣劇.要知道此前這部劇已經籌 ...

一人之下第四季定檔，9月24日開播，碧遊村篇真是太讓人期待了
從第三季結束的時候就已經在等第四季的出來了,已經等了一年多了,終於在今天定檔了,將於9月24日開播,恨時間不能過快一點,還要再等一個禮拜. 再不出第四季的內容,都快把第三季得內容忘記了,可太想念又拽又 ...

終於來了！孫儷新劇《功勳》強勢定檔！周迅蔣欣雷佳音強勢聯手
九月多部好劇熱播! 任嘉倫與白鹿的主演的電視劇<一生一世>接檔<周生如故>,繼續保持熱度第一! 最新上線的趙露思.徐開騁.任豪主演的<國子監來了個女弟子>上線2天, ...

定檔10月的7部高質量韓劇：李英愛對拼嫩版宋慧喬，全智賢惹期待
隨著國產劇質量的提升,韓劇在國內所佔據的份額也開始收縮,但部分韓劇的質量依舊線上.進入10月,又有一批高質量的韓劇即將與觀眾見面,全智賢.韓韶禧.李英愛,誰能成為收視王者呢? 話不多說,就來看看在10 ...

《一人之下》第四季定檔，哪都通臨時工齊聚碧遊村
<一人之下>這部我們熟知的國漫作品,從2016年的第一季開播至今,依舊保留著很高的熱度,此次第四季定檔9月24日,相信一定又能引起新一波的熱潮,可以算是中秋節和國慶節,雙節前的驚喜獎勵! ...

一人之下第四季定檔，羊蠍子成很多人陰影，陳朵要的到底是什麼？
<一人之下>第四季終於定檔,定於9月24日播出,也就是說,下週我們就可以看到了,而剛定檔不過半個小時,官方微博評論區留言就突破到四千條,足以看出這部作品到底有多麼受人喜歡. 不過讓人哭笑不 ...

《鐵道英雄》電影節官宣定檔11月19日張涵予範偉領銜家國熱血傳奇
9月20日晚,電影<鐵道英雄>劇組出席第十一屆北京國際電影節開幕式紅毯,華誼兄弟傳媒股份有限公司副董事長兼CEO.本片總製片人王中磊,導演楊楓,主演張涵予.魏晨.俞灝明共同亮相.主創們也攜 ...

MacBook M1X 拒絕擠牙膏 | 安卓12 正式釋出 | Google pixel 6 定檔 10 月 20 日
1.強悍效能:M1X 拒絕擠牙膏這一場釋出會的絕對主角已無懸念,那就是全新 MacBook Pro 14 英寸.16 英寸,以及內建的新一代蘋果自研晶片 M1X.其中,新款 14 英寸型號將取代 1 ...

輿情情感是如何被測量的？丨輿情技戰數

相關文章

《鏡雙城》強勢來襲，李易峰、陳鈺琪領銜，“紅顏陣容”太驚豔
<鏡雙城>強勢來襲,李易峰.陳鈺琪領銜,"紅顏陣容"太驚豔說到古裝劇<鏡雙城>,自籌備以來就未播先火,成了很多觀眾翹首以盼的人氣劇.要知道此前這部劇已經籌 ...

10月13日至18日有6部劇定檔，懸疑劇的春天要來了嗎？
10月份上旬,已經播出了<皎若雲間月>.<好好生活>.<霞光>.<只是結婚的關係>.<愛上萌面大人>等國產劇. 這其中,由張芷溪.佟夢實等人 ...

一週影視資訊：段奕宏新劇《八角亭謎霧》定檔10.13
一.電影資訊 1.<東北戀哥>定檔10.29 近日,由包貝爾.喬杉領銜主演的電影<東北戀哥>釋出"四個哥"定檔預告,將於10月29日在愛奇藝雲影院上映. 該 ...

「早報」「來炸場」蘋果秋季第二場釋出會定檔/榮耀宣佈與谷歌恢復合作
10 月 13 日[早報]導讀: ① 全民網購!淘寶上線"長輩模式":無廣告推送.字型增大 ② 攜程訂票騙錢? 12306 表示"搶票加速包"不存在優先購票權 ...

一人之下4定檔，來和寶兒姐研究阿威十八式吧
距離<一人之下3>的播出已經過去了一年了,在粉絲們的千呼萬喚中<一人之下4>終於定檔了,將於9月24日播出. 這一期播出將是非常精彩的碧遊村篇,這一篇中的故事會非常精彩.和第三 ...

輿情情感是如何被測量的？丨輿情技戰數

相關文章

10月13日至18日有6部劇定檔，懸疑劇的春天要來了嗎？ 10月份上旬,已經播出了<皎若雲間月>.<好好生活>.<霞光>.<只是結婚的關係>.<愛上萌面大人>等國產劇. 這其中,由張芷溪.佟夢實等人 ...

一週影視資訊：段奕宏新劇《八角亭謎霧》定檔10.13 一.電影資訊 1.<東北戀哥>定檔10.29 近日,由包貝爾.喬杉領銜主演的電影<東北戀哥>釋出"四個哥"定檔預告,將於10月29日在愛奇藝雲影院上映. 該 ...

「早報」「來炸場」蘋果秋季第二場釋出會定檔/榮耀宣佈與谷歌恢復合作 10 月 13 日[早報]導讀: ① 全民網購!淘寶上線"長輩模式":無廣告推送.字型增大 ② 攜程訂票騙錢? 12306 表示"搶票加速包"不存在優先購票權 ...

10月13日至18日有6部劇定檔，懸疑劇的春天要來了嗎？
10月份上旬,已經播出了<皎若雲間月>.<好好生活>.<霞光>.<只是結婚的關係>.<愛上萌面大人>等國產劇. 這其中,由張芷溪.佟夢實等人 ...

一週影視資訊：段奕宏新劇《八角亭謎霧》定檔10.13
一.電影資訊 1.<東北戀哥>定檔10.29 近日,由包貝爾.喬杉領銜主演的電影<東北戀哥>釋出"四個哥"定檔預告,將於10月29日在愛奇藝雲影院上映. 該 ...

「早報」「來炸場」蘋果秋季第二場釋出會定檔/榮耀宣佈與谷歌恢復合作
10 月 13 日[早報]導讀: ① 全民網購!淘寶上線"長輩模式":無廣告推送.字型增大 ② 攜程訂票騙錢? 12306 表示"搶票加速包"不存在優先購票權 ...