Lucene是一套用于全文检索和搜索的开放源码程序库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索。Lucene被广泛应用作搜索应用的标准基础库[1][2][3]。
Quick Facts 开发者, 首次发布 ...
Close
Lucene现已被移植到其他编程语言,包括Object Pascal、Perl、C#、C++、Python、Ruby和PHP[4]。
Doug Cutting在1999年编写了Lucene[5],他是一位资深的全文索引及检索专家,曾经是V-Twin搜索引擎的主要开发者,后来在Excite担任高级系统架构设计师,目前从事于一些互联网底层架构的研究。他贡献出Lucene的目标是为各种中小型应用程序加入全文检索功能。Lucene最初可以从SourceForge网站的主页下载,它于2001年9月加入Apache软件基金会的Jakarta开源Java产品家族,并于2005年2月成为独立的顶级Apache项目。Lucene这个名字是Doug Cutting妻子的中间名,也是她外祖母的名字[6]。
Lucene以前包含了许多子项目,例如 Lucene.NET、Mahout、Tika and Nutch。这三个现在已经成为了独立的顶级Apache项目。
2010年3月,Apache Solr搜索服务器作为Lucene子项目加入,合并了开发者社区。
4.0版于2012年10月12日发布[7]。
2021年3月,Lucene更改了logo,Apache Solr再次成为顶级Apache项目,独立于 Lucene。
虽然理论上Lucene适用于任何需要全文索引和搜索功能的应用程序,但其主要是因为在Internet搜索引擎和本地单站点搜索实现中的实用性而受到认可[8][9]。
Lucene包含了基于编辑距离执行模糊搜索的功能[10]。
Lucene也被用于实现推荐系统[11]。例如,Lucene的'MoreLikeThis'类可以生成相似文档的推荐。在将“MoreLikeThis”基于向量的相似性方法与基于引用的文档相似性度量(例如共引和共引邻近度分析)进行比较时,Lucene的方法在推荐具有非常相似的结构特征和更窄相关性的文档上表现出色[12]。相比之下,基于引用的文档相似性度量往往更适合推荐更广泛相关的文档[12]。
Lucene本身只是一个索引和搜索库,不包含爬取和HTML解析功能。但是,以下的项目扩展了Lucene的功能:
- Solr - 使用Lucene的企业搜索服务器,亦由Apache软件基金会所研发。
Kamphuis, Chris; de Vries, Arjen P.; Boytsov, Leonid; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 编, Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 28–34 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148026 , doi:10.1007/978-3-030-45442-5_4 (英语)
Grand, Adrien; Muir, Robert; Ferenczi, Jim; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 编, From MAXSCORE to Block-Max Wand: The Story of How Lucene Significantly Improved Query Evaluation Performance, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 20–27 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148045 , doi:10.1007/978-3-030-45442-5_3 (英语)
Azzopardi, Leif; Moshfeghi, Yashar; Halvey, Martin; Alkhawaldeh, Rami S.; Balog, Krisztian; Di Buccio, Emanuele; Ceccarelli, Diego; Fernández-Luna, Juan M.; Hull, Charlie; Mannix, Jake; Palchowdhury, Sauparna. Lucene4IR: Developing Information Retrieval Evaluation Resources using Lucene. ACM SIGIR Forum. 2017-02-14, 50 (2): 58–75 [2022-07-25]. ISSN 0163-5840. doi:10.1145/3053408.3053421. (原始内容存档于2022-07-28) (英语).
J. Beel, S. Langer, and B. Gipp, “The Architecture and Datasets of Docear’s Research Paper Recommender System,” in Proceedings of the 3rd International Workshop on Mining Scientific Publications (WOSP 2014) at the ACM/IEEE Joint Conference on Digital Libraries (JCDL 2014), London, UK, 2014
M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl, and B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf (页面存档备份,存于互联网档案馆) "Evaluating Link-based Recommendations for Wikipedia" in Proceedings of the 16th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), New York, NY, USA, 2016, pp. 191-200.
dev@Nutch.apache.org. Apache Nutch™ -. nutch.apache.org. [2016-11-29]. (原始内容存档于2021-01-26).
luke. GitHub. [2016-11-29]. (原始内容存档于2020-11-30).