<分区>
是否有合适的库可用于将 PDF 转换为 HTML 或其他可轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有成功。
我希望能够从 PDF 中提取文本,可能是图像。我不想将 PDF 嵌入到 HTML 中。
<分区>
是否有合适的库可用于将 PDF 转换为 HTML 或其他可轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有成功。
我希望能够从 PDF 中提取文本,可能是图像。我不想将 PDF 嵌入到 HTML 中。
最佳答案
如果您使用的是 Linux,请尝试 pdftohtml
:
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
在 MacOS 上(使用 homebrew )pdftohtml
可以安装:
brew install pdftohtml
开源电子书转换器 Calibre还可以将 PDF 文件转换为 HTML,并且可在 MacOS、Windows 和 Linux 上使用。
关于html - 如何将 PDF 转换为 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8370014/