java - 使用 Tika 解析 PDF 区域

标签 java parsing pdf itext apache-tika

我正在使用的:我正在使用 Apache Tika 在我的 Java 应用程序上解析 PDF。

我需要什么:我需要解析 PDF 的某个区域(即由 Rectangle 对象定义),就像我通常对 iText 所做的那样。

问题:是否可以使用 Apache Tika 解析 PDF 的定义区域?怎么办?

最佳答案

Apache Tika 将为您提供文档的简化、规范化 HTML 表示形式。对于基于页面的格式(例如 PDF 或 PPT),它将标记页面边界,但对于非基于页面的格式(例如基于运行的 .doc),它不会。

您需要做的是降级到 Apache PDFBox ,它是为 Tika 中的 PDF 解析器提供支持的底层库。使用 PDFBox,您可以获取给定页面上对象的位置,确定它们是否在您想要的范围内,并获取它们的文本。它不会像使用 Apache Tika 那么容易,但为了达到这种控制级别,您需要更多地参与

关于java - 使用 Tika 解析 PDF 区域,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31670206/

相关文章:

Java 针对大输入优化算术和赋值运算符

java - 如何从客户端出站 channel 访问 websocket 客户端入站 channel 拦截器中填充的 STOMP getSessionAttributes()?

parsing - "expression"的非左递归 PEG 语法

c - PDF内容流中的各种字形如何编码?

html - 在html中嵌入pdf时出现白线

java - 在 JavaFX 中居中裁剪图像

java - 如何使 TreeViewer 跨 ScrolledComposite

json - 在 Haskell 中解析 JSON 字符串

node.js 从原始 http 请求字符串创建对象

r - 从不规则间隔的 pdf 中提取字符串到整洁的 R 数据帧中