full-text-search - Lucene标准分析仪vs Snowball

标签 full-text-search lucene lucene.net nlp snowball

刚开始使用Lucene.Net。我使用标准分析器索引了100,000行,运行了一些测试查询,并注意到如果原始术语为单数,则复数查询不会返回结果。我了解雪球分析器增加了词干支持,听起来不错。但是,我想知道打雪仗与标准相比是否有任何弊端?我会因为丢失而失去任何东西吗?还有其他分析仪要考虑吗?

最佳答案

是的,通过使用诸如Snowball之类的词干提取器,您正在丢失有关文本原始格式的信息。有时这会很有用,有时则没有用。

例如,Snowball会将“组织”衍生为“器官”,因此对“组织”的搜索将以“器官”返回结果,而没有任何得分惩罚。

是否适合您取决于您​​的内容和所支持的查询类型(例如,搜索是否非常基础,或者用户是否非常复杂,并使用搜索来准确过滤结果)。您可能还想研究不太积极的词干,例如KStem

关于full-text-search - Lucene标准分析仪vs Snowball,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3875382/

相关文章:

MySQL MATCH反对效率

c# - Redis全文搜索与C#

lucene - 是否可以遍历存储在 Lucene Index 中的文档?

c# - Lucene.NET 上的 ASCIIFoldingFilter 使用示例

mysql - 使用 like 通过查询实现数据库搜索

postgresql - 我可以在 postgres ts_vector/ts_query 全文搜索中禁用字典吗?

java - Apache solr 如何索引不同的文件

mysql - 弹性和关系数据库

java - TopDocs.totalHits 与 Indexsearcher.search 参数 'n' 的关系

c# - SQL Server 2012 FileTable 创建文件时性能下降(集成 Lucene.NET)