文字挖掘(Text mining)有時也被稱為文字探勘、文字數據探勘等,大致相當於文字分析,一般指文字處理過程中產生高質素的資訊。高質素的資訊通常通過分類和預測來產生,如圖型識別。文字挖掘通常涉及輸入文字的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中) ,產生結構化數據,並最終評價和解釋輸出。'高質素'的文字挖掘通常是指某種組合的相關性,新穎性和趣味性。典型的文字挖掘方法包括文字分類文字聚類,概念/實體挖掘,生產精確分類,觀點分析文件摘要和實體關係模型(即,學習已命名實體之間的關係) 。文字分析包括了資訊檢索與詞典分析來研究詞語的頻數分佈、圖型識別、標籤\註釋、資訊抽取,數據探勘技術包括連結和關聯分析、視覺化和預測分析。本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為數據進行分析。

文字挖掘與文字分析

文字分析這一術語描述了一套語言學統計學機器學習技術,其對文字來源的內容資訊進行建模和結構化,用於商業智能探索性數據分析英語Exploratory data analysis研究或調查。[1] 該術語大致與文字挖掘同義;事實上,Ronen Feldman在2004年修改了2000年對 "文字挖掘"[2]的描述,以描述 "文字分析"。[3]後一個術語現在在商業環境中使用得更頻繁,而 "文字挖掘 "則用於一些最早可以追溯到1980年代的應用領域,[4]尤其是在生命科學研究和政府情報方面。

文字分析這一術語也描述了文字分析對商業問題的應用,無論是獨立的還是與現場數字數據的查詢和分析相結合的。不言而喻的,80%的商業相關資訊是以非結構化英語Unstructured data的形式出現的,主要是文字。[5]這些技術和過程可以發現並展示知識——事實、商業規則英語Business rule和關係——否則這些知識就會被鎖定在文字形式中,無法被自動處理。

歷史

勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期,但在過去的十年中,技術的進步已經使這一領域迅速取得進展。文字挖掘已經是資訊檢索數據探勘機器學習統計以及計算語言學學科中的重要領域。由於目前的大多數資訊(80%)是以文字的形式來儲存,文字挖掘被認為具有較高的商業潛在價值。

多語種數據探勘已經越來越多的引起人們的興趣:能夠根據自己的意願從跨語種的文字來源中挖掘出有用的資訊。

應用

現在,文字挖掘技術被廣泛地應用於各種政府、研究和商業需求。所有這些群體都可能將文字挖掘用於管理記錄和搜尋與他們日常活動相關的檔案。例如,法律專業人士可將文字挖掘用於電子取證英語Electronic discovery。政府和軍事團體將文字挖掘用於國家安全和情報目的。科學研究人員將文字挖掘方法納入組織大量文字數據(即解決非結構化數據英語Unstructured data的問題)的工作中,以挖掘通過文字交流的想法(例如,社交媒體情感分析[6][7][8]),並支援生命科學生物資訊科學等領域的科學發現英語Discovery (observation)。在商業領域,其應用有支援競爭情報和自動廣告投放英語Ad serving,以及其他許多活動。

安全應用

許多文字挖掘的軟件套件是為安全應用的。它們多數是出於國家安全的目的,監控和分析類似於互聯網新聞英語Digital journalism網誌等的線上純文字。[9] 文字加密和解密的領域也需要研究文字挖掘。

軟件應用

包括IBM微軟在內的大公司也在研究和開發文字挖掘方法和軟件,以進一步實現文字挖掘和分析過程的自動化;而搜尋和索引領域的一些公司也在研究和開發文字挖掘方法和軟件,以改善其結果。在公共部門內,許多努力集中在開發跟蹤和監測恐怖活動的軟件上。[10]對於研究而言,Weka軟件(見後文「軟件和應用」部分)是科學界最受歡迎的選擇之一,它對初學者來說是一個很好的入門點。對於Python程式設計師來說,為更加普遍的目的有一個優秀的工具包,叫做NLTK英語Natural Language Toolkit。對於更進階的程式設計師,還有Gensim英語Gensim庫,它專注於基於詞嵌入的文字表示。

線上媒體應用

大型媒體公司,如Tribune Media,正在使用文字挖掘來澄清資訊,為讀者提供更好的搜尋體驗,這反過來又增加了網站的 "粘性 "和收入。此外,在後端,編輯們也正在受益,因為他們能夠分享、關聯和包裝新聞,大大增加了內容賺錢的機會。

行銷應用

文字分析正在被應用於商業領域,特別是行銷領域,如客戶關係管理[11]Coussement和Van den Poel(2008)[12][13]將其應用於改善客戶流失英語Customer attrition預測分析模型。[12]文字挖掘也被應用於股票收益預測。[14]

情感分析

情感分析可能涉及對電影評論的分析,以估計評論對電影的好感程度。[15]這種分析可能需要一個已標記的數據集或對詞的情感性進行標記。WordNet[16]ConceptNet英語Open Mind Common Sense[17]已經有分別詞彙和概念的情感性資源。

在情感計算的相關領域,文字已經被用來檢測情感。[18]基於文字的情感計算方法已經被用於多個語料庫,如學生評價、兒童故事和新聞故事。情感分析也被應用於分析社交媒體內容。例如,之前對碳中和貼文的研究發現,正面情緒微博(83.9%)大約是負面情緒微博(9.9%)的八倍,只有 6.3% 是中性的[19]

軟件和應用

用來文字挖掘的電腦程式可從許多商業開放原始碼公司和來源獲得。

開源軟件和應用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/頁面存檔備份,存於互聯網檔案館

影響

直到最近,網站最常使用的是基於文字的搜尋,它只能找到包含用戶給定的特定單詞或短語的檔案。現在,通過使用語意網,文字挖掘可以根據意義和上下文(而不僅僅是某個特定的詞)來尋找內容。此外,文字挖掘軟件可以被用來建立有關特定人物和事件的大型資訊檔案。例如,可以根據從新聞報道中提取的數據建立大型數據集,以促進社會網絡分析或反情報工作。實際上,文字挖掘軟件的作用類似於情報分析員或研究圖書管理員,儘管分析的範圍更有限。文字挖掘也被用於一些電子郵件的垃圾郵件過濾器,作為確定可能為廣告或其他不需要的材料的資訊的一種方式。文字挖掘在確定金融市場情緒英語Market sentiment方面發揮着重要作用。

註釋

參考資料

更多連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.