python - 使用 Python 在许多文档中搜索许多表达式

标签 python nlp

我经常需要在许多文档(百万+)中搜索许多单词(1000+)。我需要匹配单词的位置(如果匹配)。

代码的伪版本太慢了

for text in documents:
     for word in words:
             position = search(word, text)
             if position:
                  print word, position 

有没有快速的Python模块可以做到这一点?或者我应该自己实现一些东西?

最佳答案

要进行快速精确文本、多关键字搜索,请尝试 acora - http://pypi.python.org/pypi/acora/1.4

如果您想要一些额外功能 - 结果相关性、近似匹配、词根等,Whoosh 可能会更好 - http://pypi.python.org/pypi/Whoosh/1.4.1

我不知道这两者在扩展到数百万个文档方面的表现如何,但很快就能找到答案!

关于python - 使用 Python 在许多文档中搜索许多表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4443481/

相关文章:

machine-learning - 机器学习/NLP文本分类: training a model from corpus of text files - scikit learn

neural-network - 预训练的 GloVe 矢量文件(例如 glove.6B.50d.txt)中的 "unk"是什么?

Python>根据列表中的值从字典中查找键

python - 从 Aptana Studio PyDev 运行时取消抑制 UnicodeEncodeError 异常

python - 在 python 中使用 beautifulsoup 单击链接

python - 使用 mechanize 检索 robots.txt 时出现 HTTP 403 错误

Python 如何制作表格

python - 如何处理涉及多个特征的文本分类问题

nlp - 我可以使用 NLTK 来确定评论是正面评论还是负面评论吗?

python - 使用词汇对 Python 进行词袋编码