java - 使用 Java 或 .NET 库对 ColdFusion 中的 PDF 执行光学字符识别?

标签 java pdf coldfusion ocr

我希望获取 PDF 并从中提取任何文本。然后我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。

是否有任何库可以很好地做到这一点?我将 Java 或 .NET(首选 Java)库包含在范围内,因为它们可以从 CF 调用。

任何见解或经验将不胜感激...谢谢!

编辑:据我所知,当文本嵌入 PDF 中时,索引 PDF 文件就可以使用 CF 了。我必须处理的 PDF 文件将文本扫描为图像。

最佳答案

如果您有能力运行自己的软件(即专用/VPS),那么您可以使用 Tesseract OCR 进行调查使用 cfexecute 将 PDF 转换为文本?

关于java - 使用 Java 或 .NET 库对 ColdFusion 中的 PDF 执行光学字符识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/496875/

相关文章:

java - 为什么要记录链表中移除的第一个元素?

html - 适合 A4 尺寸的 html 表格

ruby-on-rails - 使用 Ruby 上的 Prawn 将图像添加到 pdf 文件

java - Railo Java 打印

javascript - 使用 Javascript 分配 ColdFusion 客户端变量

java - 为什么我无法使用 'outer' catch 捕获嵌套 catch 子句中抛出的异常?

java - 在泛型类中声明静态泛型变量

pdf - 当我们使用 html2canvas 和 jsPDF 库有多个图形时,会生成空 PDF 报告

jQuery 填充第二个选择列表

java - 在 Java Eclipse 中使用 Selenium WebDriver 启动 Chrome 时出错 - 线程 "main"中出现异常