java - 需要有关在网络上显示(和/或转换)pdf 文件的建议

标签 java html pdf struts-1

首先是一些背景知识:我的网站有两种基本类型的用户。拥有免费帐户的用户可以上传文件,付费客户可以搜索、查看或下载这些文件。上传者只能查看他们拥有的文档,而付费客户可以查看任何内容。目前我们仅支持 Word 文档(.doc 或 .docx)和纯文本。我们使用 JODConverter 库在 Word 和 html 之间进行转换; html 是存储在数据库中并显示给用户的内容。
我们也想转向接受 PDF,但我不确定显示 PDF 或将它们转换为 html 的最佳方式是什么。我看到过使用 Google 文档即时进行转换的建议,但考虑到该文档必须可供 Google 公开访问,因此适当限制访问似乎不可行 - 如果我错了,请纠正我。似乎只是在 html 中使用标签(或类似 PDFBox 的东西)会遇到同样的问题。
或者我们可以忘记直接显示 PDF 文件并将它们转换为 html,就像我们处理 Word 文档一样,但我还没有找到一个看起来不错的库。到目前为止,我所看到的一切似乎都表明它在转换工作方面并没有那么出色,仅适用于 Window 和/或需要支付高额的许可费。 (如果许可费不超过 100 美元/年左右,则不一定会破坏交易。)有人知道好的 Java 转换库吗? (通过命令行运行的东西如果确实做得很好,那是可以接受的。)
最后一件事,我们计划为付费客户提供下载原始 PDF 文件的选项。这可能很复杂吗?在构建流程的其余部分时,有什么我应该牢记的吗?

最佳答案

您可以通过 JPedal 等工具将 PDF 转换为图像,而不是将 PDF 转换为 HTML 这意味着某种 OCR(识别文本)并创建一个 HTML 页面,该页面按顺序链接到这些图像。由于这是 java 库,它不仅适用于 Windows。

下载原始 PDF 文件应该不是问题。您只需在标题中将 mimetype 设置为标准 PDF 扩展名:application/pdf。

关于java - 需要有关在网络上显示(和/或转换)pdf 文件的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9845086/

相关文章:

java - 渲染 swagger 服务描述的路径时如何考虑 servlet 路径映射

java - Netty 关闭/停止 UDP 服务器

css - 正确使用CSS

html - CSS使用div创建均匀间隔的表格

java - 使用 xdocreport 生成 pdf 时设置页数的选项

java - 什么定义了我项目的 "war-ness"?

java - 我们应该使用常量作为描述性变量名来初始化某些字段的默认值吗?

javascript - Firefox OS - BuildingBlock 抽屉的使用

OSX Markdown 预览 PDF 上的 RStudio 出现 Pandoc 错误 43

javascript - 如何在 jspdf.js 中设置导出表格的字体大小?