java - 将 pdf 转换为 xml

标签 java xml

我想使用 java 将包含少量图像的 PDF 文件转换为 xml。

有没有什么api可以把所有pdf的图片和文本都转换成xml文件。

请帮忙。

最佳答案

使用pdftohtml .

可以使用 brew install pdftohtml 安装。这会将 pdftohtml 添加到您的路径中。

因此,要将 pdf 转换为 xml,您可以运行 pdftohtml -xml your_file.pdf your_file.xml

然后,只需使用java或任何其他语言来执行此命令即可。

关于java - 将 pdf 转换为 xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5026850/

相关文章:

javascript - 将 SVGSVGElement 转换为字符串

java - 确定文本中重复出现的字符之间的距离

Android - 如何处理 XML 中的 Web 服务?

xml - 如何创建 MPEG-DASH 的 MPD 文件来播放 webm 视频?

java - 我的 android studio 项目没有给我构建 apk 的选项。我该如何修复它?

javascript - 如何在 Angular 表中下载 xml 数据

sql - 如何从 SQL Server 2008 返回 XML,该 XML 的结构具有多个选择共享一个公共(public)父级

java - JSP Ajax Servlet - 在 JSP 中获取返回值

java - Checkstyle ParenPad 格纹

java - 使用命令行 JAVAC 编译 Java