python - 抓取时收到请求？

我是卡内基梅隆大学的新生，他完全迷失在第一个学期的项目中，我非常感谢您的帮助:)

我正在编写一个抓取工具，有时请求没有响应。它不返回任何东西；它甚至不返回错误。这个问题使我的抓取工具卡在一个 URL 上，而不是意识到它被卡住并继续前进。这是代码:

def extractHTML(url):
    startTime = time.time()
    headers = requests.utils.default_headers()
    headers.update(
        {'User-Agent':
         'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',})
    paper1Link = requests.get(url,headers=headers)
    papaer1Content=BeautifulSoup(paper1Link.content,"lxml")
    return str(papaer1Content)

如何让 python 识别出我被卡住并中断几秒钟？
此网站:http://www.apa.org/即使我更改 header 以使请求看起来像普通的单独请求，也不会授予我访问权限。我如何才能从中获取请求？

最佳答案

requests documentation有一个section called "Timeouts".也许你应该从这里开始。

paper1Link = requests.get(url,headers=headers, timeout=0.4)

关于python - 抓取时收到请求？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43622686/

上一篇：python - 为什么需要 Homebrew 在 MacOS 上安装 WeasyPrint？可以用Anaconda代替吗？

下一篇：python - 将 Feather 存储的 Pandas 数据帧读取到 R 中

相关文章：

python - 按列对数据框中的某些行进行排序

python - 如何使用 Python 读取健康(游戏中)

python-3.x - 查看客户在 Stripe 上购买的所有产品

web-scraping - 恶意软件感染站点列表(仅 URL)

php - CasperJS 将数据传回 PHP

python - 按字符串拆分列表和字符串的列表

python - 在 Django 中验证错误时将 css 类添加到字段

python - 通过将旧函数包装在其上来创建具有较少参数的新函数

html - 使用vba从网站抓取数据

python - 从数据框 Pandas 创建多索引