information-retrieval - 在 Galago 中删除停用词来索引集合

标签 information-retrieval lemur

I successfully indexed a collection using Galago. I didn't found any parameter for removing stopwords for indexing. Does galago remove stopwords automatically? If no, how can I pass the stopwords list to Galago and how I can tell Galago to remove stopwords?

最佳答案

Galago 作为一个研究搜索引擎,尽量不做出无法撤销的假设:默认情况下,索引是为词干非词干术语构建的。

在索引期间,不会删除任何停用词,这会给您在查询时带来负担,但它允许更改或调整训练集上的停用词列表。

如果你想删除停用词,它需要是一个查询时间步骤。如果你想一想,这就是任何现代搜索引擎所想要的,除非磁盘空间有限:如果没有停用词或更复杂的技术,查询“to be or not to be”是无法回答的,但最好编写一些代码来删除除非它清空查询,否则不要无条件删除它们。

Galago 通过 WordLists 类提供对“inquery”停用词列表的访问。

关于information-retrieval - 在 Galago 中删除停用词来索引集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33720923/

相关文章:

python - Elasticsearch没有显示任何匹配。 Python查询是正确的

database - 创建巨大倒排索引的方法

java - 狐猴项目中 IndriRunQuery 的空白输出

linux - 在 Linux 机器上安装 Lemur

java - Galago安装失败: JAVA_HOME is not defined correctly

algorithm - 数据挖掘中数据集稀疏性的影响

python - 使用 Python 的倒排索引系统

c++ - 我想在 QT 中使用 LEMUR 库

java - 安装 Galago 时出错

c - 文件中未定义的第一个引用符号