java - 自动从 pdf 中提取许多文件的文本

标签 java python pdf text

我有大约 10,000 个 pdf 文件(conf 论文)，我需要从这些论文的某些部分(如实验部分)中提取文本并保存在文件中。有谁知道 java 工具或 python 工具可以帮助我做到这一点？

提前致谢

阿尤什

最佳答案

您在发布问题之前研究过您的问题吗？我刚刚用 google 搜索发现了这个 Apache 项目:http://pdfbox.apache.org/

关于java - 自动从 pdf 中提取许多文件的文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16152965/

上一篇：java - 出现错误 : non-static method getTotalPlayers() cannot be referenced from a static context

下一篇：java - Jasper 报告中无序 HTML 列表前的空行

相关文章：

html - 带有 HTML 的 iOS 9 "Save PDF to iBooks"

java - 使用itext pdf缺少pdf上的彩色区域

Java 生成 DH 公钥大小与文档中的示例大小不同

java - quickfix.InvalidMessage 即使有有效消息也会抛出异常

python - 如何在 python 中录制不确定持续时间的音频并允许暂停和恢复功能？

python套接字错误10060

java - 从单独的线程修改基于 PropertyChangeEvent 的 Swing 组件

java枚举混淆

python - 时间序列固定技术

pdf - DocBook 到 PDF 与合作身份 (Linux)

©2024 IT工具网联系我们