html - 如何将 PDF 转换为 HTML?

标签 html pdf file-conversion

<分区>

是否有合适的库可用于将 PDF 转换为 HTML 或其他可轻松转换为 HTML 的格式?

我搜索了类似的问题,但没有成功。

我希望能够从 PDF 中提取文本,可能是图像。我不想将 PDF 嵌入到 HTML 中。

最佳答案

如果您使用的是 Linux,请尝试 pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

在 MacOS 上(使用 homebrew )pdftohtml 可以安装:

brew install pdftohtml

开源电子书转换器 Calibre还可以将 PDF 文件转换为 HTML,并且可在 MacOS、Windows 和 Linux 上使用。

关于html - 如何将 PDF 转换为 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8370014/

相关文章:

html - 删除 YUI Rich Editor 标题并使其不可折叠

java - 如何更改 servlet 将 PDF 流式传输到的浏览器页面的标题?

python - 如何在 Django 模型中从 PDF 中提取并保存文件

c# - 如何将此 javascript 行转换为 c#?

android - 如何将 HTML 文件转换为纯文本并通过 WhatsApp、Facebook 和 e.t 共享

xml - HTML 之于 HAML 就像 XSLT 之于 ...?

python - 使用 Django 和 Celery 的动态页面

jquery - 在 IE 上切换后,DIV(页脚)未被按下

html - CSS-img :not selector?

java - 阅读 PDF Literal String 解析困境