python - 文本索引器(适用于 Python)，内置对 doc、docx 和 pdf 文件的支持

我目前正在为我的 python 程序寻找文本索引器。我将 Solr(一个 Lucene 项目)和 Whoosh(Python 原生项目)列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档，Solr 一直向我指出 Tika 包，它的一个版本与 Solr 集成。

结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗？还有哪些其他开源索引器可以 native 读取这些格式？

最佳答案

使用 Solr 1.4 或更高版本，您可以动态上传 Word 和 PDF 文件并建立索引；请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler

Solr's ExtractingRequestHandler uses Tika to allow users to upload binary files to Solr and have Solr extract text from it and then index it.

关于python - 文本索引器(适用于 Python)，内置对 doc、docx 和 pdf 文件的支持，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6716934/