我使用“requests”和“beautifulSoup”api 用 python 编写了一段代码,从 google 返回的前 100 个网站中抓取文本数据。 它在大多数网站上运行良好,但在那些稍后响应或根本不响应的网站上会出现错误 我收到此错误
引发 MaxRetryError(_pool, url, error 或 ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError:HTTPConnectionPool(主机='www.lfpress.com',端口=80):超过最大重试次数,网址:/2015/11/06/fair-with-a-flare-samosas- made-easy (由 NewConnectionError(': 无法建立新连接: [Errno 11001] getaddrinfo failed',))
我应该更改请求 API 中编写的代码吗?或者我需要使用一些代理?我如何离开该网站并转到下一个网站?因为错误正在停止我的执行。
最佳答案
在调用周围添加一个“try except” block 以捕获该异常,如果您不关心错误,则继续,例如:
import requests
try:
requests.get('http://stackoverflow.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
print repr(e)
关于python - 如何使用 Python 从网站上抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34571229/