python - 如何使用 Python 从网站上抓取文本

标签 python web-scraping beautifulsoup python-requests text-mining

我使用“requests”和“beautifulSoup”api 用 python 编写了一段代码,从 google 返回的前 100 个网站中抓取文本数据。 它在大多数网站上运行良好,但在那些稍后响应或根本不响应的网站上会出现错误 我收到此错误

引发 MaxRetryError(_pool, url, error 或 ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError:HTTPConnectionPool(主机='www.lfpress.com',端口=80):超过最大重试次数,网址:/2015/11/06/fair-with-a-flare-samosas- made-easy (由 NewConnectionError(': 无法建立新连接: [Errno 11001] getaddrinfo failed',))

我应该更改请求 API 中编写的代码吗?或者我需要使用一些代理?我如何离开该网站并转到下一个网站?因为错误正在停止我的执行。

最佳答案

在调用周围添加一个“try except” block 以捕获该异常,如果您不关心错误,则继续,例如:

import requests
try:
    requests.get('http://stackoverflow.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
    print repr(e)

关于python - 如何使用 Python 从网站上抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34571229/

相关文章:

Python:如何从转换后的 csv 文件创建数据文件?

python - 更改父级继承的python类的方法

python-2.7 - 用 BeautifulSoup 替换 python 中的文本

python - python 中漂亮的 soup xml 格式

python - 使用抓取的数据填充 MySQL 表

python - 如何将 stdlib 日志记录与 py.test 结合起来

python 通过动态获取 url 的方式进行抓取

python,lxml检索列表中的所有元素

python - 使用 Python 抓取特定页面

javascript - 如何使用 cheerio 获取具有不同类的元素?