java - 有没有可以从给定坐标中提取文本的PDF解析库?

标签 java pdf pdf-extraction

早上好,伙计们。我被分配了一项任务,其中我应该根据给定的字段和部分规范从 PDF 文件(银行发票)中提取文本。该规范在 YAML 文件中给出。这些字段表示为一组两个坐标 - 文本所在矩形的左上角和右下角以及字段的名称。我正在使用 SnakeYAML 将此信息加载到对象中。到目前为止我已经成功了。对于下一部分,我必须使用这些数据从 PDF 中提取文本,嗯......我有点被困在这里。其一,我还无法决定使用哪个 PDF 解析库。您能给我推荐一个适合我的任务的 PDF 解析库吗?我应该如何完成上述任务?谢谢!

最佳答案

PDF Box能够从给定区域提取文本。看看PDFTextStripperByArea !

关于java - 有没有可以从给定坐标中提取文本的PDF解析库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7281159/

相关文章:

java - Rest - 如何在没有堆栈跟踪的情况下发送 Http 错误响应

java - 在 Android 中创建从右到左的 PDF 文件

python - 在 iPython Notebook 中查看 pdf 图像

regex - 如何仅获取 RegEx 的第一个匹配项(UiPath Studio RegEx Based Extractor)

java - 如何提取pdf文件中表格的内容?

java - 在 asynctask 结束时执行一个函数

java - 如何在 invokeshutdown 方法中获取 jobject

java - hibernate + Spring 应用程序。在使用数据库之前添加逻辑

javascript - 带复选框的 Acrobat PDF 计算

python-2.7 - 如何从pdf中提取特定标题下的文本?