python - 使用 Python 自动下载嵌入式 PDF 文件

标签 python url pdf download

我正在编写一个 Python 脚本来自动下载网站上托管的一些 pdf 页面(来自公共(public)领域的作品)。 不幸的是,单个 pdf 页面嵌入在框架中,当我使用以下内容时:

import time, urllib
for n in range(21,63):
    time.sleep(2)
    pdfPath="http://babel.hathitrust.org/cgi/imgsrv/download/pdf?id=wu.89038803698;orient=0;size=100;seq=%s;attachment=0"%(str(n))
    pdfName="Housner_"+str(n)+".pdf"
    f = open(pdfName, 'w')
    f.write(urllib.urlopen(pdfPath).read())
    f.close()
    time.sleep(2)

下载的文件实际上是空白的,Adobe 显示错误,例如未找到无效图像、嵌入字体等。

任何人都可以建议我如何改进这个脚本,以便下载的 PDF 不会出错/损坏。

谢谢。

最佳答案

'w' 替换为 open(pdfName, 'w') 中的 'wb'

关于python - 使用 Python 自动下载嵌入式 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35509137/

相关文章:

firefox - 浏览器添加 www.和 .com 自动到服务器地址

java - 如何同时进行pdf书写和复印?

python - 如何使用 Tweepy 使用阿拉伯语文本作为使用 Python 的查询来流式传输推文?

python - 向 numpy 数组添加索引

python - 使用 BeautifulSoup 为每个子页面抓取数据 - url 很长且格式不同

php - 隐藏 URL 的 index.php(或 index.html)

r - 在 R 中生成报告

perl - 如何修复 Perl 脚本中 strftime 的使用错误

java - 如何像java一样格式化日期时间?

python - Pandas dataframe 使用 groupby 对子集进行反向排序