java - 自动从 pdf 中提取许多文件的文本

标签 java python pdf text

我有大约 10,000 个 pdf 文件(conf 论文),我需要从这些论文的某些部分(如实验部分)中提取文本并保存在文件中。 有谁知道 java 工具或 python 工具可以帮助我做到这一点?

提前致谢

阿尤什

最佳答案

您在发布问题之前研究过您的问题吗?我刚刚用 google 搜索发现了这个 Apache 项目:http://pdfbox.apache.org/

关于java - 自动从 pdf 中提取许多文件的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16152965/

相关文章:

html - 带有 HTML 的 iOS 9 "Save PDF to iBooks"

java - 使用itext pdf缺少pdf上的彩色区域

Java 生成 DH 公钥大小与文档中的示例大小不同

java - quickfix.InvalidMessage 即使有有效消息也会抛出异常

python - 如何在 python 中录制不确定持续时间的音频并允许暂停和恢复功能?

python套接字错误10060

java - 从单独的线程修改基于 PropertyChangeEvent 的 Swing 组件

java枚举混淆

python - 时间序列固定技术

pdf - DocBook 到 PDF 与合作身份 (Linux)