我正在使用 tika 从包含大量表格的 pdf 文件中提取文本。
java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf
它返回一些无效文本,有时它会修剪两个单词之间的空格;例如它返回 “将数学思想与现实世界联系起来”而不是“将数学思想与现实世界联系起来”。
有没有办法尽量减少这种错误?或者还有其他我可以使用的库吗?使用 OCR 处理此类 pdf 有意义吗?
最佳答案
使用 PDFBox 解析器时尝试控制顺序:PDFTextStripper
有一个控制文档中行顺序的标志。默认情况下(在 PDFBox 中)出于性能原因(不保留顺序),它设置为 false,但 Tika 在打开和关闭此标志的版本之间更改了其行为。
有关此问题的更多详细信息,请参阅我的博客 Extracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood) .
关于apache-tika - tika为包含大量表格的pdf返回错误的文本行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7067538/