I successfully indexed a collection using Galago. I didn't found any parameter for removing stopwords for indexing. Does galago remove stopwords automatically? If no, how can I pass the stopwords list to Galago and how I can tell Galago to remove stopwords?
最佳答案
Galago 作为一个研究搜索引擎,尽量不做出无法撤销的假设:默认情况下,索引是为词干和非词干术语构建的。
在索引期间,不会删除任何停用词,这会给您在查询时带来负担,但它允许更改或调整训练集上的停用词列表。
如果你想删除停用词,它需要是一个查询时间步骤。如果你想一想,这就是任何现代搜索引擎所想要的,除非磁盘空间有限:如果没有停用词或更复杂的技术,查询“to be or not to be”是无法回答的,但最好编写一些代码来删除除非它清空查询,否则不要无条件删除它们。
Galago 通过 WordLists 类提供对“inquery”停用词列表的访问。
关于information-retrieval - 在 Galago 中删除停用词来索引集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33720923/