python - 无法使我的脚本以所需的格式打印输出

标签 python python-3.x web-scraping pypdf

我正在尝试从 pdf 文件中提取文本的特定部分。我使用 PyPDF2 库来做到这一点。但是,当我执行下面的脚本时,我可以看到我想要抓取的内容正在笨拙地打印在控制台中。

到目前为止我已经写过:

import io
import PyPDF2
import requests

URL = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'

res = requests.get(URL)
f = io.BytesIO(res.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(0).extractText()
print(contents)

我的输出:

ACCESSHEALTHCTConnecticutAllPayersClaimsDatabaseDATASUBMISSIONGUIDE
December5,2013
Version1.2(withclarifications)

我希望抓取的输出如下:

ACCESS HEALTH CT
Connecticut All Payers Claims Database
DATA SUBMISSION GUIDE
December 5, 2013
Version 1.2 (with clarifications)

最佳答案

这是 pyPDF2 的问题,原因是 PyPDF 不读取换行符。或者您也可以pdftotext

简单干净,您可以循环页面或提取一页。

import io
import requests
import pdftotext
URL = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'
res = requests.get(URL)
f = io.BytesIO(res.content)
pdf = pdftotext.PDF(f)
print(pdf[0])
# Iterate over all the pages
# for page in pdf:
#     print(page)

enter image description here

关于python - 无法使我的脚本以所需的格式打印输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57344233/

相关文章:

python - 使用cv2.HoughLines()的效果是错误的

python - 使用嵌套 for 循环创建字典

python - 尝试在 Python 中加载 JSON 文件时,为什么会收到 JSONDecodeError 错误?

python-3.x - 在 Anaconda 安装中使用 'jupyter lab' 命令获取 DLL 错误

web-scraping - 下载维基百科页面的整个历史

javascript - js2xml 中的 xpath 是否允许我在选择时执行类似 contains 的操作?

css - 如何使用rvest中的节点和类提取网页数据

python - 如何沿矩阵轴执行滚动求和?

python - 从 scipy 稀疏矩阵创建稀疏 RDD

django - 在elasticsearch-dsl中为完成建议字段定义权重