Python文件索引和搜索

标签 python search indexing lucene

我有大量的 set off 文件 (hdf) 需要启用搜索。对于 Java,我会为此使用 Lucene,因为它是一个文件和文档索引引擎。我不知道 python 的等价物是什么。

谁能推荐我应该使用哪个库来索引大量文件以进行快速搜索?或者是您自己推出的首选方式?

我看过pylucenelupy ,但这两个项目似乎都不活跃且不受支持,所以我不确定是否应该依赖它们。

最后的说明: Woosh 和 pylucene 似乎很有前途,但 woosh 仍然是 alpha,所以我不确定我是否要依赖它,而且我在编译 pylucene 时遇到问题,并且没有实际发布。在我查看了更多数据之后,它主要是数字和默认文本字符串,所以现在索引引擎对我没有帮助。希望这些库能够稳定下来,以后的访问者会发现它们有一些用处。

最佳答案

卢比 has been retired开发人员推荐使用 PyLucene。至于 PyLucene,它的邮件列表活跃度可能较低,但肯定是支持的。事实上,它最近才变成一个official apache subproject。 .

您可能还想看看一个新的竞争者:Whoosh .它类似于 lucene,但使用纯 python 实现。

关于Python文件索引和搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/532312/

相关文章:

strip 的 Python 奇怪的字符串处理问题

PHP MYSQL refine search 多个查询

indexing - 使用带有 float 的 Pandas reindex : interpolation

javascript - 为什么需要 .length 来查找 for 循环中数组元素的等价项?

python - 在 Pandas 数据框中将 NaT 更改为空白

python - 在 Azure 函数中使用自己的包(工件)?

Python ZIP 函数给出了意外的输出

search - 我可以以编程方式调用搜索帮助,其中一些参数已经填写且不可编辑吗?

search - 如何防止某些元素显示在 Google 搜索摘录中?

python - 元组拆包顺序更改分配的值