我使用的是 Python 3.4,需要从 PDF 中提取所有文本,然后将其用于文本处理。
我看到的所有答案都建议选择 Python 2.7。
我需要 Python 3.4 中的一些东西。
邦森
最佳答案
您需要安装 pypdf 包才能在 Python 中处理 PDF。 pypdf 可以提取文本/图像。文本以 Python 字符串形式返回。要安装它,请从命令行运行pip install pypdf
。此模块名称区分大小写,因此请确保键入全部小写字母。
from pypdf import PdfReader
reader = PdfReader('my_file.pdf')
print(len(reader.pages)) # gives '56'
page = reader.pages[9] #'9' is the page number
page.extract_text()
最后一条语句返回“my_file.pdf”文档第 9 页中可用的所有文本。
关于python-3.x - Python 3.4 中从 PDF 中提取文本的最佳工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32667398/