python - 文本索引器(适用于 Python),内置对 doc、docx 和 pdf 文件的支持

标签 python solr full-text-search whoosh solr-cell

我目前正在为我的 python 程序寻找文本索引器。我将 Solr(一个 Lucene 项目)和 Whoosh(Python 原生项目)列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档,Solr 一直向我指出 Tika 包,它的一个版本与 Solr 集成。

结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗?还有哪些其他开源索引器可以 native 读取这些格式?

最佳答案

使用 Solr 1.4 或更高版本,您可以动态上传 Word 和 PDF 文件并建立索引;请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler

Solr's ExtractingRequestHandler uses Tika to allow users to upload binary files to Solr and have Solr extract text from it and then index it.

关于python - 文本索引器(适用于 Python),内置对 doc、docx 和 pdf 文件的支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6716934/

相关文章:

google-app-engine - 谷歌应用引擎( python ): Search API : String Search

python - 在 python 中打开并显示适合图像

python - 在散点图中突出显示特定点(基于条件)

java - CloudSolrServer : Could not find collection : gettingstarted

solr - 在不同长度的 field 上均匀提升

elasticsearch - 在 Elasticsearch 中使用不同的文档类型创建索引

python - Python 嵌套 For 循环的时间比较

python - 在进程池中共享数据库连接

solr - 如何在日期字段上应用 facet,其中结果应提供给定日期的记录数

c#搜索大文本文件