python - 抓取时收到请求?

标签 python python-3.x web-scraping

我是卡内基梅隆大学的新生,他完全迷失在第一个学期的项目中,我非常感谢您的帮助:)

我正在编写一个抓取工具,有时请求没有响应。它不返回任何东西;它甚至不返回错误。这个问题使我的抓取工具卡在一个 URL 上,而不是意识到它被卡住并继续前进。这是代码:

def extractHTML(url):
    startTime = time.time()
    headers = requests.utils.default_headers()
    headers.update(
        {'User-Agent':
         'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',})
    paper1Link = requests.get(url,headers=headers)
    papaer1Content=BeautifulSoup(paper1Link.content,"lxml")
    return str(papaer1Content)
  1. 如何让 python 识别出我被卡住并中断几秒钟?
  2. 此网站:http://www.apa.org/即使我更改 header 以使请求看起来像普通的单独请求,也不会授予我访问权限。我如何才能从中获取请求?

最佳答案

requests documentation有一个section called "Timeouts".也许你应该从这里开始。

paper1Link = requests.get(url,headers=headers, timeout=0.4)

关于python - 抓取时收到请求?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43622686/

相关文章:

python - 按列对数据框中的某些行进行排序

python - 如何使用 Python 读取健康(游戏中)

python-3.x - 查看客户在 Stripe 上购买的所有产品

web-scraping - 恶意软件感染站点列表(仅 URL)

php - CasperJS 将数据传回 PHP

python - 按字符串拆分列表和字符串的列表

python - 在 Django 中验证错误时将 css 类添加到字段

python - 通过将旧函数包装在其上来创建具有较少参数的新函数

html - 使用vba从网站抓取数据

python - 从数据框 Pandas 创建多索引