python-3.x - Python 3.4 中从 PDF 中提取文本的最佳工具

标签 python-3.x pdf

我使用的是 Python 3.4,需要从 PDF 中提取所有文本,然后将其用于文本处理。

我看到的所有答案都建议选择 Python 2.7。

我需要 Python 3.4 中的一些东西。

邦森

最佳答案

您需要安装 pypdf 包才能在 Python 中处理 PDF。 pypdf 可以提取文本/图像。文本以 Python 字符串形式返回。要安装它,请从命令行运行pip install pypdf。此模块名称区分大小写,因此请确保键入全部小写字母。

from pypdf import PdfReader

reader = PdfReader('my_file.pdf')
print(len(reader.pages))  # gives '56'
page = reader.pages[9]    #'9' is the page number
page.extract_text()

最后一条语句返回“my_file.pdf”文档第 9 页中可用的所有文本。

关于python-3.x - Python 3.4 中从 PDF 中提取文本的最佳工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32667398/

相关文章:

python - 如何修复 "-scipy.misc has no attribute "调整大小“”

python-3.x - Python 3 ~ 如何从 csv 文件中获取行并将它们放入列表中

pdf - 如何使用 dart_pdf 在 flutter 中将 Assets 图像和图标转换为 PdfImage

c# - ItextSharp 在页面中心添加图像,并在其下方添加文本

javascript - PDF 转换后不显示更改的值

html - 制作一个包含 PDF 整个高度的可滚动 div

python-3.x - 删除 Y 文件夹中超过 X 天的每个文件

python-3.x - Python 3.6 异步 aioodbc 阻塞

python - 运行时警告 : divide by zero encountered in true_divide W = 1/sigma**2/s_sq symfit

ios - Swift ResearchKit makePDFWithCompletionHandler