java - 如何使用 java 解析 pdf,其中使用 latex 生成(以获取章节或部分等结构)

标签 java parsing pdf latex structure

我有一个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构,我想我可以开始解析用 latex 生成的 pdf,它应该有一些结构。

您知道我可以使用 Latex 生成的 pdf 中的任何模式来解析 pdf 吗?

最佳答案

看看PDF Box , 用于解析 PDF 文档中的文本。或者你可以使用 Apache Tika ,它提供对多种文档类型的解析,具有标准接口(interface)(可能有点矫枉过正)。我不建议尝试手动执行此操作。

关于java - 如何使用 java 解析 pdf,其中使用 latex 生成(以获取章节或部分等结构),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13291624/

相关文章:

c# - 改变语言文化后如何保持相同的日期格式?

c++ - 在文件中查找字符串 C++

java - 创建通用列表,其中列表的类型仅在运行时已知

java - 接口(interface)作为方法的参数

java - Powershell环境设置

ruby - ruby解析/静态代码分析框架

java - 使用网络 HSM 和 PDFBox 签署 PDF

iPhone Quartz 演示,重新渲染 PDF

java - 如何在 iText 中创建 "reply"到便笺注释

Java正则表达式与问号和单词边界完全匹配