python - python读取所有类型的文件

标签 python pdf pdfminer pypdf

我试图从 python(.pdf .doc .docx) 中的不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我在不需要时得到空间和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请建议我一些可以从文件中提取信息的东西。

编辑

目前正在寻找可以帮助我从 .pdf 文件中提取准确文本的东西。我尝试过 PyPDF、PDFMiner 和 PDF Manager,但在所有这些文件中都遇到了一些 pdf 问题。

最佳答案

我个人认为pdfminer是从pdf中提取信息的最佳Python模块Get it here

我想你可以引用this link 对应的文件格式。

关于python - python读取所有类型的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44179222/

相关文章:

python - 优化pdfminer

python - 从包外部导入 python 模块会产生意外的行为

python - 如何从Python中的__new__构造函数调用方法?

java - 将文本(数字)放置在指定位置

python - 从 PDF 文件中获取数据,其布局与复制+粘贴相同

python - 为什么字符 ID 160 在 PDFMiner 中不被识别为 Unicode?

python - 消除连续数字

python - Flask-Admin 在更新时删除辅助映射

image - 将 PDF 转换为 PNG

php - 使用 dompdf 从数据库渲染数据时出错