python - python读取所有类型的文件

我试图从 python(.pdf .doc .docx) 中的不同类型的文件中提取信息并转换为 .txt，但是在处理不同的文件时，我在不需要时得到空间和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请建议我一些可以从文件中提取信息的东西。

编辑

目前正在寻找可以帮助我从 .pdf 文件中提取准确文本的东西。我尝试过 PyPDF、PDFMiner 和 PDF Manager，但在所有这些文件中都遇到了一些 pdf 问题。

最佳答案

我个人认为pdfminer是从pdf中提取信息的最佳Python模块Get it here

我想你可以引用this link 对应的文件格式。

关于python - python读取所有类型的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44179222/

相关文章：

python - 优化pdfminer