我正在寻找一个(最好是Java)库或命令行工具来从pdf中提取单词坐标。输入 pdf 包含文本或图像,后面带有 ocr 文本。
我的用例:
在 Java Web 应用程序中,我想使用它来突出显示并显示它,而无需其他软件(例如 Adobe Reader 等)。相反,我想将匹配的页面转换为图像并将其呈现在网页中。
最佳答案
您应该能够使用http://pdfbox.apache.org/进行突出显示并将其呈现为 pdf 本身。另请参阅http://itextpdf.com/ .
关于java - 从 pdf 中提取单词坐标的库/工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4366716/