似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。
一些 OCR 商业软件(例如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
最佳答案
作为对this SO question的回答表明,这是由于 PDF 格式本身的性质。
在这个问题上,OCR 选项可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,如 Tesseract和 Ocropus但我不知道它们的工作情况如何,或者它们是否可以轻松地与 Solr 集成。
关于solr - 替代 Tika/PDFBox 用于在 Solr 中解析 PDF(1.4 之后的任何版本),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8149179/