python - 网络抓取最大重试次数被拒绝

标签 python web-scraping http-headers python-requests screen-scraping

我在抓取某些网站时遇到问题,而其他网站却可以正常工作。例如,这有效:

page = requests.get('https://wsj.com/', proxies=proxydict)

但这不是:

page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict)

即使我只抓取了 1 页(并且之前没有抓取过),我还是收到了“最大重试次数”错误。

我尝试过对不会抓取的网站使用 header ,但没有成功。我应该使用特定的 header 吗?如何抓取上面显示的第二个网站( www.privateequityinternational.com )?谢谢。

最佳答案

问题是该页面是通过浏览器中的 http 提供的,而不是 https,当您尝试使用 https 访问该页面时,您会收到来自 Google 的警告:

In [1]: import requests
   ...: page = requests.get('http://www.wsj.com')
   ...: 

In [2]: page
Out[2]: <Response [200]>

关于python - 网络抓取最大重试次数被拒绝,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38508357/

相关文章:

python - 根据行中的数字将 Pandas 数据框列转换为列表

python - 填补 Pandas 数据框中的日期空白

python - python gtk.Entry 中的 "preedit-changed"事件不起作用

java - 是否可以使用普通套接字连接发送 HTTP 请求并接收没有 header 的响应?

http - 当消息正文为空时,是否应该存在 Content-Type header ?

python - 如何在 python 3.6 中使用类型提示?

java - JSOUP - 直接从页面中以特定格式提取数据

node.js - Puppeteer 启动无故无法正常工作

python - 如果浏览器不支持框架+无法直接访问框架,如何自动获取框架内容

javascript - CORS访问阻止