文本挖掘(Text mining)有時也被稱為文字探勘、文本數據挖掘等,大致相當於文字分析,一般指文本處理過程中產生高質量的信息。高質量的信息通常通過分類和預測來產生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到數據庫中) ,產生結構化數據,並最終評價和解釋輸出。'高品質'的文本挖掘通常是指某種組合的相關性,新穎性和趣味性。典型的文本挖掘方法包括文本分類文本聚類,概念/實體挖掘,生產精確分類,觀點分析文檔摘要和實體關係模型(即,學習已命名實體之間的關係) 。文本分析包括了信息檢索與詞典分析來研究詞語的頻數分布、模式識別、標籤\注釋、信息抽取,數據挖掘技術包括鏈接和關聯分析、可視化和預測分析。本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文本轉化為數據進行分析。

文本挖掘與文本分析

文本分析這一術語描述了一套語言學統計學機器學習技術,其對文本來源的內容信息進行建模和結構化,用於商業智能探索性數據分析英語Exploratory data analysis研究或調查。[1] 該術語大致與文本挖掘同義;事實上,Ronen Feldman在2004年修改了2000年對 "文本挖掘"[2]的描述,以描述 "文本分析"。[3]後一個術語現在在商業環境中使用得更頻繁,而 "文本挖掘 "則用於一些最早可以追溯到1980年代的應用領域,[4]尤其是在生命科學研究和政府情報方面。

文本分析這一術語也描述了文本分析對商業問題的應用,無論是獨立的還是與現場數字數據的查詢和分析相結合的。不言而喻的,80%的商業相關信息是以非結構化英語Unstructured data的形式出現的,主要是文本。[5]這些技術和過程可以發現並展示知識——事實、商業規則英語Business rule和關係——否則這些知識就會被鎖定在文本形式中,無法被自動處理。

歷史

勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期,但在過去的十年中,技術的進步已經使這一領域迅速取得進展。文本挖掘已經是信息檢索數據挖掘機器學習統計以及計算語言學學科中的重要領域。由於目前的大多數信息(80%)是以文本的形式來保存,文本挖掘被認為具有較高的商業潛在價值。

多語種數據挖掘已經越來越多的引起人們的興趣:能夠根據自己的意願從跨語種的文字來源中挖掘出有用的信息。

應用

現在,文本挖掘技術被廣泛地應用於各種政府、研究和商業需求。所有這些群體都可能將文本挖掘用於管理記錄和搜索與他們日常活動相關的文件。例如,法律專業人士可將文本挖掘用於電子取證英語Electronic discovery。政府和軍事團體將文本挖掘用於國家安全和情報目的。科學研究人員將文本挖掘方法納入組織大量文本數據(即解決非結構化數據英語Unstructured data的問題)的工作中,以挖掘通過文本交流的想法(例如,社交媒體情感分析[6][7][8]),並支持生命科學生物信息學等領域的科學發現英語Discovery (observation)。在商業領域,其應用有支持競爭情報和自動廣告投放英語Ad serving,以及其他許多活動。

安全應用

許多文本挖掘的軟件包是為安全應用的。它們多數是出於國家安全的目的,監控和分析類似於互聯網新聞英語Digital journalism博客等的在線純文本。[9] 文本加密和解密的領域也需要研究文本挖掘。

軟件應用

包括IBM微軟在內的大公司也在研究和開發文本挖掘方法和軟件,以進一步實現文本挖掘和分析過程的自動化;而搜索和索引領域的一些公司也在研究和開發文本挖掘方法和軟件,以改善其結果。在公共部門內,許多努力集中在開發跟蹤和監測恐怖活動的軟件上。[10]對於研究而言,Weka軟件(見後文「軟件和應用」部分)是科學界最受歡迎的選擇之一,它對初學者來說是一個很好的入門點。對於Python程序員來說,為更加普遍的目的有一個優秀的工具包,叫做NLTK英語Natural Language Toolkit。對於更高級的程序員,還有Gensim英語Gensim庫,它專注於基於詞嵌入的文本表示。

在線媒體應用

大型媒體公司,如Tribune Media,正在使用文本挖掘來澄清信息,為讀者提供更好的搜索體驗,這反過來又增加了網站的 "粘性 "和收入。此外,在後端,編輯們也正在受益,因為他們能夠分享、關聯和包裝新聞,大大增加了內容賺錢的機會。

營銷應用

文本分析正在被應用於商業領域,特別是營銷領域,如客戶關係管理[11]Coussement和Van den Poel(2008)[12][13]將其應用於改善客戶流失英語Customer attrition預測分析模型。[12]文本挖掘也被應用於股票收益預測。[14]

情感分析

情感分析可能涉及對電影評論的分析,以估計評論對電影的好感程度。[15]這種分析可能需要一個已標記的數據集或對詞的情感性進行標記。WordNet[16]ConceptNet英語Open Mind Common Sense[17]已經有分別詞彙和概念的情感性資源。

在情感計算的相關領域,文本已經被用來檢測情感。[18]基於文本的情感計算方法已經被用於多個語料庫,如學生評價、兒童故事和新聞故事。情感分析也被應用於分析社交媒體內容。例如,之前對碳中和帖子的研究發現,正面情緒微博(83.9%)大約是負面情緒微博(9.9%)的八倍,只有 6.3% 是中性的[19]

軟件和應用

用來文本挖掘的計算機程序可從許多商業開放源代碼公司和來源獲得。

開源軟件和應用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/頁面存檔備份,存於網際網路檔案館

影響

直到最近,網站最常使用的是基於文本的搜索,它只能找到包含用戶給定的特定單詞或短語的文件。現在,通過使用語義網,文本挖掘可以根據意義和上下文(而不僅僅是某個特定的詞)來尋找內容。此外,文本挖掘軟件可以被用來建立有關特定人物和事件的大型信息檔案。例如,可以根據從新聞報道中提取的數據建立大型數據集,以促進社會網絡分析或反情報工作。實際上,文本挖掘軟件的作用類似於情報分析員或研究圖書管理員,儘管分析的範圍更有限。文本挖掘也被用於一些電子郵件的垃圾郵件過濾器,作為確定可能為廣告或其他不需要的材料的信息的一種方式。文本挖掘在確定金融市場情緒英語Market sentiment方面發揮着重要作用。

注釋

參考資料

更多鏈接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.