在資訊檢索中,為節省儲存空間和提高搜尋效率,在自然語言處理資料(或文字)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。
此條目可能包含原創研究。 (2012年4月6日) |
對於一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什麼實際含義,比如「the、「is」、「at」、「which」、「on」等。但是對於搜尋引擎來說,當所要搜尋的短語包含功能詞,特別是像「The Who」、「The The」或「Take That」等複合名詞時,停用詞的使用就會導致問題。另一類詞包括詞彙詞,比如'want'等,這些詞應用十分廣泛,但是對這樣的詞搜尋引擎無法保證能夠給出真正相關的搜尋結果,難以幫助縮小搜尋範圍,同時還會降低搜尋的效率,所以通常會把這些詞從問題中移去,從而提高搜尋效能。
作為資訊檢索的先驅者之一,Hans Peter Luhn創造了這個短語,並在他的研究中應用這個概念,推動了這個概念的使用[1]。
參見
參考資料
外部連結
參照
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.