我希望获取 PDF 并从中提取任何文本。然后我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。
是否有任何库可以很好地做到这一点?我将 Java 或 .NET(首选 Java)库包含在范围内,因为它们可以从 CF 调用。
任何见解或经验将不胜感激...谢谢!
编辑:据我所知,当文本嵌入 PDF 中时,索引 PDF 文件就可以使用 CF 了。我必须处理的 PDF 文件将文本扫描为图像。
最佳答案
如果您有能力运行自己的软件(即专用/VPS),那么您可以使用 Tesseract OCR 进行调查使用 cfexecute
将 PDF 转换为文本?
关于java - 使用 Java 或 .NET 库对 ColdFusion 中的 PDF 执行光学字符识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/496875/