apache-tika - tika为包含大量表格的pdf返回错误的文本行

我正在使用 tika 从包含大量表格的 pdf 文件中提取文本。

java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf

它返回一些无效文本，有时它会修剪两个单词之间的空格；例如它返回 “将数学思想与现实世界联系起来”而不是“将数学思想与现实世界联系起来”。

有没有办法尽量减少这种错误？或者还有其他我可以使用的库吗？使用 OCR 处理此类 pdf 有意义吗？

最佳答案

使用 PDFBox 解析器时尝试控制顺序:PDFTextStripper 有一个控制文档中行顺序的标志。默认情况下(在 PDFBox 中)出于性能原因(不保留顺序)，它设置为 false，但 Tika 在打开和关闭此标志的版本之间更改了其行为。

关于apache-tika - tika为包含大量表格的pdf返回错误的文本行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7067538/

相关文章：

java - 我如何通过 tika 检测波斯语网页？