python-3.x - Python 3.4 中从 PDF 中提取文本的最佳工具

标签 python-3.x pdf

已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。

我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便用事实和引文来回答。

已关闭 3 年前。

Improve this question

我使用的是 Python 3.4，需要从 PDF 中提取所有文本，然后将其用于文本处理。

我看到的所有答案都建议选择 Python 2.7。

我需要 Python 3.4 中的一些东西。

邦森

最佳答案

您需要安装 pypdf 包才能在 Python 中处理 PDF。 pypdf 可以提取文本/图像。文本以 Python 字符串形式返回。要安装它，请从命令行运行pip install pypdf。此模块名称区分大小写，因此请确保键入全部小写字母。

from pypdf import PdfReader

reader = PdfReader('my_file.pdf')
print(len(reader.pages))  # gives '56'
page = reader.pages[9]    #'9' is the page number
page.extract_text()

最后一条语句返回“my_file.pdf”文档第 9 页中可用的所有文本。

关于python-3.x - Python 3.4 中从 PDF 中提取文本的最佳工具，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32667398/

上一篇：javascript - 定义 AngularJS Controller 时使用数组表示法的原因

下一篇：JavaScript - 数组和类数组对象之间的区别

python-3.x - Python 3 ~ 如何从 csv 文件中获取行并将它们放入列表中

pdf - 如何使用 dart_pdf 在 flutter 中将 Assets 图像和图标转换为 PdfImage

c# - ItextSharp 在页面中心添加图像，并在其下方添加文本

javascript - PDF 转换后不显示更改的值

html - 制作一个包含 PDF 整个高度的可滚动 div

python-3.x - 删除 Y 文件夹中超过 X 天的每个文件

python-3.x - Python 3.6 异步 aioodbc 阻塞

python - 运行时警告 : divide by zero encountered in true_divide W = 1/sigma**2/s_sq symfit

ios - Swift ResearchKit makePDFWithCompletionHandler