我有大约 10,000 个 pdf 文件(conf 论文),我需要从这些论文的某些部分(如实验部分)中提取文本并保存在文件中。 有谁知道 java 工具或 python 工具可以帮助我做到这一点?
提前致谢
阿尤什
最佳答案
您在发布问题之前研究过您的问题吗?我刚刚用 google 搜索发现了这个 Apache 项目:http://pdfbox.apache.org/
关于java - 自动从 pdf 中提取许多文件的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16152965/