我目前正在为我的 python 程序寻找文本索引器。我将 Solr(一个 Lucene 项目)和 Whoosh(Python 原生项目)列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档,Solr 一直向我指出 Tika 包,它的一个版本与 Solr 集成。
结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗?还有哪些其他开源索引器可以 native 读取这些格式?
最佳答案
使用 Solr 1.4 或更高版本,您可以动态上传 Word 和 PDF 文件并建立索引;请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler
Solr's ExtractingRequestHandler uses Tika to allow users to upload binary files to Solr and have Solr extract text from it and then index it.
关于python - 文本索引器(适用于 Python),内置对 doc、docx 和 pdf 文件的支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6716934/