java - 如何使用 java 解析 pdf，其中使用 latex 生成(以获取章节或部分等结构)

标签 java parsing pdf latex structure

我有一个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构，我想我可以开始解析用 latex 生成的 pdf，它应该有一些结构。

您知道我可以使用 Latex 生成的 pdf 中的任何模式来解析 pdf 吗？

最佳答案

看看PDF Box , 用于解析 PDF 文档中的文本。或者你可以使用 Apache Tika ，它提供对多种文档类型的解析，具有标准接口(interface)(可能有点矫枉过正)。我不建议尝试手动执行此操作。

关于java - 如何使用 java 解析 pdf，其中使用 latex 生成(以获取章节或部分等结构)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13291624/

上一篇：从 AKKA 发送非阻塞 http 请求的 Java 示例

下一篇：java - 如何使用 OS X 2012-006 的 Java 取回 OS X 中的 Java 首选项？

相关文章：

c# - 改变语言文化后如何保持相同的日期格式？

c++ - 在文件中查找字符串 C++

java - 创建通用列表，其中列表的类型仅在运行时已知

java - 接口(interface)作为方法的参数

java - Powershell环境设置

ruby - ruby解析/静态代码分析框架

java - 使用网络 HSM 和 PDFBox 签署 PDF

iPhone Quartz 演示，重新渲染 PDF

java - 如何在 iText 中创建 "reply"到便笺注释

Java正则表达式与问号和单词边界完全匹配

©2024 IT工具网联系我们