自動標引(英語:Automatic Indexing)包括關鍵詞自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。關鍵詞自動提取是一種識別有意義且具有代表性片段或詞彙的自動化技術[1]。關鍵詞自動提取在文本挖掘域被稱為關鍵詞抽取(英語:Keyword Extraction),在計算語言學領域通常着眼於術語自動識別(英語:Automatic Term Recognition),在訊息檢索領域,就是指自動標引。自動標引屬於文本訊息抽取的範疇。文本訊息抽取是從文本數據中抽取人們關注的特定的訊息。

favicon
1 sources

作用

由於關鍵詞是表達文件主題意義的最小單位,因此大部分對非結構化文件的自動處理,如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、訊息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等,都必須先進行關鍵詞提取的動作,再進行其他的處理。可以說,關鍵詞提取是所有文件自動處理的基礎與核心技術。目前大多文檔都不具有關鍵詞,同時手工標引費力費時且主觀性較強, 因此關鍵詞自動標引是一項值得研究的技術[2]

favicon
1 sources

發展過程

自動標引研究可以分為三個階段: 從Luhn於1957年開始進行自動標引後開始,到目前為止,自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初,關於關鍵詞自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末,自動標引研究漸漸冷卻,原因主要包括:全文索引逐漸被人採用,並且基本上能滿足用戶需要;傳統的自動標引方法的效率到了極限;網絡興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到現在,關鍵詞自動提取的研究逐漸升溫,尤其是最近幾年,關鍵詞自動提取研究進行的如火如荼,產生該現象的主要原因為:全文索引的功能越來越難以滿足實際需求,用戶需要更加精確的結果;另外互聯網的很多服務,例如自動摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴於關鍵詞自動提取的結果,只有這樣才能有希望從根本上提高訊息服務品質。

代表方法

根據見諸於報道的自動標引研究情況,結合自動標引研究領域的影響程度和自動標引方法的創新程度,歸納出1957~2007年五十年時間裏比較有代表性的自動標引方法。

  • 1957年,Luhn開始自動標引研究,首次將計算機技術引入文獻標引領域,開創了以詞頻為特徵的統計標引方法,其理論基礎是Zipf定律,該方法具有一定的客觀性和合理性,並且簡單易行,在自動標引中佔有重要地位[3]
  • 1958年,Luhn提出基於絕對頻率加權法的自動標引方法[4] ; P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵詞[5]
  • 1959年,Edmundson與Oswald提出基於相對頻率加權法的自動標引方法[6]
  • 1960年,Maron & Kuhns提出基於相關概率的賦詞標引方法[7]
  • 1969年,H.P.Edmundson提出了一些新的加權方法,如提示詞(預示詞)加權法、題名加權法、位置加權法,並探討了不同加權法的最優組合問題[8]
  • 1970年,Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵詞[9]
  • 1973年,Salton等提出基於詞區分值的自動標引方法[10]
  • 1975年,Salton等將VSM模型用於自動標引中[11]
  • 1983年,Dillon等提出一種基於概念的自動標引方法,研製了FASIT系統[12]
  • 1985年,Devadason提出基於深層結構標引方法[13]
  • 1990年,Deerwester & Dumais等提出潛在語義分析標引法[14]
  • 1993年,Silva & Milidiu提出基於相信函數模型的賦詞標引方法[15]
  • 1995年,Cohen提出N-Gram分析法的自動標引方法[16]
  • 1997年,簡立峰提出基於PAT樹的關鍵詞提取方法[17]
  • 1999年,Frank等人提出基於樸素貝葉斯(Naive Bayes,NB)的關鍵詞提取方法[18] ;Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究[19]
  • 2001年,Anjewierden & Kabel提出基於本體的自動標引方法[20]
  • 2003年,Tomokiyo & Hurst提出了基於語言模型的關鍵詞提取方法[21];Hulth利用Bagging算法進行了基於集成學習的關鍵詞抽取[22]
  • 2004年,李素建提出基於最大熵模型的關鍵詞提取方法[2]
  • 2006年,張闊提出基於支持向量機自動標引模型[23]
  • 2007年,Ercan, G. & Cicekli, I提出基於詞彙鏈的自動標引方法[24]
favicon
22 sources

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.