我经常需要在许多文档(百万+)中搜索许多单词(1000+)。我需要匹配单词的位置(如果匹配)。
代码的伪版本太慢了
for text in documents:
for word in words:
position = search(word, text)
if position:
print word, position
有没有快速的Python模块可以做到这一点?或者我应该自己实现一些东西?
最佳答案
要进行快速精确文本、多关键字搜索,请尝试 acora - http://pypi.python.org/pypi/acora/1.4
如果您想要一些额外功能 - 结果相关性、近似匹配、词根等,Whoosh 可能会更好 - http://pypi.python.org/pypi/Whoosh/1.4.1
我不知道这两者在扩展到数百万个文档方面的表现如何,但很快就能找到答案!
关于python - 使用 Python 在许多文档中搜索许多表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4443481/