我正在编写一个 Python 脚本来自动下载网站上托管的一些 pdf 页面(来自公共(public)领域的作品)。 不幸的是,单个 pdf 页面嵌入在框架中,当我使用以下内容时:
import time, urllib
for n in range(21,63):
time.sleep(2)
pdfPath="http://babel.hathitrust.org/cgi/imgsrv/download/pdf?id=wu.89038803698;orient=0;size=100;seq=%s;attachment=0"%(str(n))
pdfName="Housner_"+str(n)+".pdf"
f = open(pdfName, 'w')
f.write(urllib.urlopen(pdfPath).read())
f.close()
time.sleep(2)
下载的文件实际上是空白的,Adobe 显示错误,例如未找到无效图像、嵌入字体等。
任何人都可以建议我如何改进这个脚本,以便下载的 PDF 不会出错/损坏。
谢谢。
最佳答案
将 'w'
替换为 open(pdfName, 'w')
中的 'wb'
关于python - 使用 Python 自动下载嵌入式 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35509137/