我有一个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构,我想我可以开始解析用 latex 生成的 pdf,它应该有一些结构。
您知道我可以使用 Latex 生成的 pdf 中的任何模式来解析 pdf 吗?
最佳答案
看看PDF Box , 用于解析 PDF 文档中的文本。或者你可以使用 Apache Tika ,它提供对多种文档类型的解析,具有标准接口(interface)(可能有点矫枉过正)。我不建议尝试手动执行此操作。
关于java - 如何使用 java 解析 pdf,其中使用 latex 生成(以获取章节或部分等结构),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13291624/