我试图从 python(.pdf .doc .docx) 中的不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我在不需要时得到空间和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请建议我一些可以从文件中提取信息的东西。
编辑
目前正在寻找可以帮助我从 .pdf 文件中提取准确文本的东西。我尝试过 PyPDF、PDFMiner 和 PDF Manager,但在所有这些文件中都遇到了一些 pdf 问题。
最佳答案
我个人认为pdfminer
是从pdf中提取信息的最佳Python模块Get it here
我想你可以引用this link 对应的文件格式。
关于python - python读取所有类型的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44179222/