java - 从 pdf 中提取单词坐标的库/工具

我正在寻找一个(最好是Java)库或命令行工具来从pdf中提取单词坐标。输入 pdf 包含文本或图像，后面带有 ocr 文本。

我的用例:
在 Java Web 应用程序中，我想使用它来突出显示并显示它，而无需其他软件(例如 Adobe Reader 等)。相反，我想将匹配的页面转换为图像并将其呈现在网页中。

最佳答案

您应该能够使用http://pdfbox.apache.org/进行突出显示并将其呈现为 pdf 本身。另请参阅http://itextpdf.com/ .

关于java - 从 pdf 中提取单词坐标的库/工具，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4366716/