文本情感分析(也稱為意見挖掘)是指用自然語言處理、文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀訊息。
通常來說,情感分析的目的是為了找出說話者/作者在某些話題上或者針對一個文本兩極的觀點的態度。這個態度或許是他或她的個人判斷或是評估,也許是他當時的情感狀態(就是說,作者在做出這個言論時的情緒狀態),或是作者有意向的情感交流(就是作者想要讀者所體驗的情緒)。
研究領域
文本情感分析的一個基本步驟是對文本中的某段已知文字的兩極性進行分類,這個分類可能是在不同的層級下進行。分類的作用就是判斷出此文字中表述的觀點是積極的、消極的、還是中性的情感(sentiment)。更高級的「超出兩極性」的情感分析還會尋找更複雜的情緒狀態(emotion),比如「生氣」、「悲傷」、「快樂」 等等。
在文本情感分析領域,早期做出研究貢獻的有 Turney[1] 和 Pang[2] 他們運用了多種方法探測商品評論和電影影評的兩極觀點。此研究是建立在文檔級所進行的分析。另一種文檔意見的分類方式可以是多重等級的,Pang[3] 和 Snyder[4] (among others):[3] 延伸了早先的基礎兩極意見研究,將電影影評分類並預測為3至4星的多重級別,而 Snyder[4] 就餐館評論做了個深度分析,從多種不同方面預測餐館的評分,比如食物、氣氛等等 (在一個5星的等級制度上)。儘管在大多數統計方面的分類方式中,「中性」 類是經常被忽略的,因為「中性」類的文本經常是處於一個兩極分類的邊緣地帶,但是很多研究者指出,在每個兩極化問題當中,都應該識別出三個不同的類別。進一步的說,一些現有的分類方式 例如 Max Entropy[5] 和 SVMs[6] 可以證明,在分類過程中區分出「中性」類可以幫助提高分類算法的整體準確率。實際上,之前的一些研究發現,在某些場合,例如 YouTube,中性語氣佔多數。約53.84%的觀眾對北京建築遺產旅遊視頻持中立態度,約36.79%的觀眾對北京建築遺產旅遊視頻持正面或強烈正面情感態度。[7]
另一種判定文本情緒的方法是利用比例換算系統。當一個詞普遍被認為跟消極、中性或是積極的情感有關聯時,將這個詞賦予一個-10到+10之中的數字級別(最消極到最正向情感),在使用自然語言處理來分析一個非結構化文本數據後,餘下的的概念也可以被分析來得出詞與概念的相關性。[來源請求] 接下來,每一個概念都可以被賦予一個分數,這個分數是基於情感詞彙和這個概念的關聯度,以及他們本身的分數而得出的。這個方法讓文本情感的理解晉升到一個更加智能的層面,並且是基於一個11分的等級範圍的。另外一種方法是,計算出文本正向的和消極的情感力度分數, 如果研究的目的是要判定一個文本的感情,而不是總體文本集的兩極分佈或文字的力度。[8]
另一個研究方向是「主觀/客觀 識別」。這個研究 [9] 通常被定義為將一個已知文本(一般是句子)分類成兩個類:主觀和客觀。這個問題有些時候比兩極化分類問題更難解決。 [10] 主觀詞彙和短語可能是基於前後文語意聯繫,而一個客觀文檔有可能包含主觀語句(e.g. 一篇新聞引用了某人的觀點)。此外, Su[11] 也曾提到過,得到的結論在很大程度上依賴於註釋文本時對「主觀」的定義。不過, Pang[12] 證實了如果兩極分類前去除文件中的客觀語句,會提高算法的表現。
方法
現有的文本情感分析的途徑大致可以集合成四類:關鍵詞識別、詞彙關聯、統計方法和概念級技術。[13] 關鍵詞識別是利用文本中出現的清楚定義的影響詞(affect words),例如「開心」、「難過」、「傷心」、「害怕」、「無聊」等等,來影響分類。[14]詞彙關聯除了偵查影響詞以外,還附於詞彙一個和某項情緒的「關聯」值。[15] 統計方法通過調控機器學習中的元素,比如潛在語意分析(latent semantic analysis),SVM(support vector machines),詞袋(bag of words),等等。(參見Peter Turney[1]在相關領域的研究成果。)一些更智能的方法意在探測出情感持有者(保持情緒狀態的那個人)和情感目標(讓情感持有者產生情緒的實體)。[16]要想挖掘在某語境下的意見,或是獲取被給予意見的某項功能,需要使用到語法之間的關係。語法之間互相的關聯性經常需要通過深度解析文本來獲取。[17]與單純的語義技術不同的是,概念級的算法思路權衡了知識表達(knowledge representation)的元素,比如知識本體 (ontologies)、語義網絡(semantic networks),因此這種算法也可以探查到文字間比較微妙的情緒表達。例如, 分析一些沒有明確表達相關信息的概念,但是通過他們對於明確概念的不明顯聯繫來獲取所求信息。[18]
有很多開源軟件使用機器學習(machine learning)、統計、自然語言處理的技術來計算大型文本集的情感分析, 這些大型文本集合包括網頁、網絡新聞、網上討論群、網絡評論、博客和社交媒介。[19] Yao et al 使用機器學習發現,英語推文的情緒越積極,它就越有可能被轉發。然而,法國推文的負面情緒越多,推文被轉發的可能性就越大。因此,在法語推文中,負面職業安全推文比正面推文具有更強的影響,但在英文推文中則不然。雖然法語推文的情緒分析結果表明,大多數推特用戶以中立的語氣討論職業安全問題,但法語推文中極端負面的數量遠多於英語。這反映了語言文化差異影響用戶的行為。[20]
分析層級與基於面向的情感分析
情感分析可以分為三種分析層級,分別為文件層級(document level)、句子層級(sentence level)以及面向層級(aspect level)。
在文件層級中,一則文件只會被萃取出一個情感。在句子層級中,情感分析方法將文件中的每一則句子皆萃取出一個對應情感。
面向層級與上面兩者差別較大。在面向層級中,情感分析的單位為一個實體(entity)的不同面向,而一個面向會萃取出一個情感。一個實體可能是一個手機,或一個相機等。一個面向則是一個實體的某個屬性或者組成部分。以一則句子「這台電腦的性能很優秀」為例,「電腦」為一個實體,「性能」則為該實體的一個面向,在面向層級的情感分析中即會得到類似於「性能具有積極情感」的結果。[21]
面向層級的情感分析目的在於取得粒度更細的分析結果,技術上的難度也較其他兩者困難,因此發展出獨立的研究領域,一般稱作基於面向的情感分析(aspect-based sentiment analysis, ABSA)。ABSA的子任務包含了意見目標萃取(opinion target extractio, OTE)、面向類別偵測(aspect category detection)、情感極性分類(sentiment polarity)等。[22]
參見
參考
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.