java - 使用 Java 从 PDF/A 中提取文本

标签 java api pdf apache-tika

有没有可以从 PDF/A 中提取文本的 Java 框架?有很多 Java PDF 框架,但它们没有指定是否支持该格式。

最佳答案

Leonard Rosenthol 在 itext 峰会上就 PDF 标准和格式做了精彩的演讲。他解释了所有不同的子集。您可以在线观看视频:http://www.parleys.com/#st=5&id=3188&sl=0

所有演示文稿的列表位于 http://lowagie.com/summit2012presentations

关于java - 使用 Java 从 PDF/A 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10822505/

相关文章:

html - 从 CSS 和 HTML 生成 PDF,@page @top-center 和内容之间的距离更大

java - 如何从 JavaFX2 中的 FileChooser 获取选定的文件扩展名?

java - 从服务器在客户端执行的 spring 双向 rmi 回调

java - l33t 为什么它打印三个 U

Django 将reverse()与包含相同应用程序的多个URL一起使用

api - 归档 trello 板/列表 (API)

java - 为 Spring RestTemplate POST 获取 400 错误请求

c# - POSTMAN POST 请求返回不支持的媒体类型

pdf - 如何从 PDF 中提取文本?

iphone - 使用 CGPDFScanner 解析 CMap 流