Lucene是一套用於全文檢索搜尋開放原始碼程式庫,由Apache軟件基金會支援和提供。Lucene提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜尋。Lucene被廣泛應用作搜尋應用的標準基礎庫[1][2][3]

Quick Facts 開發者, 首次釋出 ...
Lucene
Thumb
開發者Apache軟件基金會
首次釋出1999年,​25年前​(1999
目前版本9.4.1(2022年10月24日,​22個月前​(2022-10-24
原始碼庫 編輯維基數據連結
程式語言Java
作業系統跨平臺
類型搜尋全文檢索
特許條款Apache特許條款 2.0
網站lucene.apache.org
Close

Lucene現已被移植到其他程式語言,包括Object PascalPerlC#C++PythonRubyPHP[4]

歷史

Doug Cutting在1999年編寫了Lucene[5],他是一位資深的全文索引及檢索專家,曾經是V-Twin搜尋引擎的主要開發者,後來在Excite擔任高級系統架構設計師,目前從事於一些互聯網底層架構的研究。他貢獻出Lucene的目標是為各種中小型應用程式加入全文檢索功能。Lucene最初可以從SourceForge網站的首頁下載,它於2001年9月加入Apache軟件基金會的Jakarta開源Java產品家族,並於2005年2月成為獨立的頂級Apache專案。Lucene這個名字是Doug Cutting妻子的中間名,也是她外祖母的名字[6]

Lucene以前包含了許多子專案,例如 Lucene.NET、Mahout、Tika and Nutch。這三個現在已經成為了獨立的頂級Apache專案。

2010年3月,Apache Solr搜尋伺服器作為Lucene子專案加入,合併了開發者社區。

4.0版於2012年10月12日釋出[7]

2021年3月,Lucene更改了logo,Apache Solr再次成為頂級Apache專案,獨立於 Lucene。

功能和常見用途

雖然理論上Lucene適用於任何需要全文索引和搜尋功能的應用程式,但其主要是因為在Internet搜尋引擎和本地單站點搜尋實現中的實用性而受到認可[8][9]

Lucene包含了基於編輯距離執行模糊搜尋的功能[10]

Lucene也被用於實現推薦系統[11]。例如,Lucene的'MoreLikeThis'類可以生成相似文件的推薦。在將「MoreLikeThis」基於向量的相似性方法與基於參照的文件相似性度量(例如共引和共引鄰近度分析)進行比較時,Lucene的方法在推薦具有非常相似的結構特徵和更窄相關性的文件上表現出色[12]。相比之下,基於參照的文件相似性度量往往更適合推薦更廣泛相關的文件[12]

基於Lucene的項目

Lucene本身只是一個索引和搜尋庫,不包含爬取和HTML解析功能。但是,以下的專案擴充了Lucene的功能:

  • Apache Nutch — 提供成熟可用的網絡爬蟲[13]
  • Apache Solr — 基於Lucene核心的高效能搜尋伺服器,提供JSON/Python/Ruby API[14]
  • CompassElasticsearch的前身[15]
  • CrateDB – 基於Lucene構建的開源分散式SQL資料庫[16]
  • DocFetcher — 跨平台的本機檔案搜尋桌面程式[來源請求][17]
  • Elasticsearch —企業搜尋平台,目的是組織數據並使其易於取得[18]
  • Kinosearch – 用PerlC語言[19]實現的搜尋引擎與Lucene的移植[20]Socialtext wiki[19]MojoMojo wiki均使用了這一搜尋引擎[21]。 它在人類代謝物組資料庫(HMDB)[22] 和毒素與毒素目標資料庫(T3DB)[23]中亦有應用。
  • MongoDB Atlas Search – 基於MongoDB和Apache Lucene的雲原生企業搜尋應用程式
  • OpenSearch – 基於Elasticsearch 7的開源企業級搜尋伺服器
  • Swiftype — 基於Lucene的企業級搜尋[24]
  • Lucene.NET — 提供給.Net平台用戶的Lucene類別館的封裝[25]
  • Apache Lucy — 為動態語言提供全文搜尋的能力,是Lucene Java 庫的C介面[26]
  • Luke — Java編寫的用戶介面用於編輯Lucene的索引,此專案已停止開發[27]

參見

  • Solr - 使用Lucene的企業搜尋伺服器,亦由Apache軟件基金會所研發。

參考資料

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.