solr - 替代 Tika/PDFBox 用于在 Solr 中解析 PDF(1.4 之后的任何版本)

标签 solr full-text-indexing pdfbox apache-tika document-conversion

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。

一些 OCR 商业软件(例如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。

最佳答案

作为对this SO question的回答表明,这是由于 PDF 格式本身的性质。

在这个问题上,OCR 选项可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,如 TesseractOcropus但我不知道它们的工作情况如何,或者它们是否可以轻松地与 Solr 集成。

关于solr - 替代 Tika/PDFBox 用于在 Solr 中解析 PDF(1.4 之后的任何版本),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8149179/

相关文章:

php - 使用查询生成器在 Laravel 中添加全文索引

java - PDFBox 2.0 RC3 -- 查找和替换文本

java - 使用 PDFBox 和 BouncyCaSTLe 签署 PDF

bash - 找不到命令 : Cron

java - 限制 Solr 搜索中记录的可见性

php - 谁能指点我一个 php-solr 预编译的 dll 吗?

java - 如何在PDFBox中添加多个页面

java - Java Servlet 容器在哪里

MySQL全文查询锁表

python - 如何在文本文件中找到最相关的字符串?