我想使用 java 将包含少量图像的 PDF 文件转换为 xml。
有没有什么api可以把所有pdf的图片和文本都转换成xml文件。
请帮忙。
最佳答案
使用pdftohtml .
可以使用 brew install pdftohtml
安装。这会将 pdftohtml
添加到您的路径中。
因此,要将 pdf 转换为 xml,您可以运行 pdftohtml -xml your_file.pdf your_file.xml
然后,只需使用java或任何其他语言来执行此命令即可。
关于java - 将 pdf 转换为 xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5026850/