apache-tika - tika为包含大量表格的pdf返回错误的文本行

标签 apache-tika

我正在使用 tika 从包含大量表格的 pdf 文件中提取文本。

java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf

它返回一些无效文本,有时它会修剪两个单词之间的空格;例如它返回 “将数学思想与现实世界联系起来”而不是“将数学思想与现实世界联系起来”。

有没有办法尽量减少这种错误?或者还有其他我可以使用的库吗?使用 OCR 处理此类 pdf 有意义吗?

最佳答案

使用 PDFBox 解析器时尝试控制顺序:PDFTextStripper 有一个控制文档中行顺序的标志。默认情况下(在 PDFBox 中)出于性能原因(不保留顺序),它设置为 false,但 Tika 在打开和关闭此标志的版本之间更改了其行为。

有关此问题的更多详细信息,请参阅我的博客 Extracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood) .

关于apache-tika - tika为包含大量表格的pdf返回错误的文本行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7067538/

相关文章:

java - 我如何通过 tika 检测波斯语网页?

java - Solr SimplePostTool : IOException while reading response: java.net.SocketException:来自服务器的意外文件结尾

java - 如何使用 OpenNLP 创建自定义模型?

Java 将作为 Rest API 响应返回的 pdf 转换为文本

solrj - 索引后锁定的文件

apache-tika - 使用 Apache Tika 时出现 NoSuchMethodError

java - 检查文档是否受密码保护

compiler-errors - Java新手,发现依赖项编译困难

java - JSoup- 按原样获取标签之间的文本

java - 解析二进制文件时出错... (moSTLy PDF)