python - 如何使用 Python 从网站上抓取文本

标签 python web-scraping beautifulsoup python-requests text-mining

我使用“requests”和“beautifulSoup”api 用 python 编写了一段代码，从 google 返回的前 100 个网站中抓取文本数据。它在大多数网站上运行良好，但在那些稍后响应或根本不响应的网站上会出现错误我收到此错误

引发 MaxRetryError(_pool, url, error 或 ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError:HTTPConnectionPool(主机='www.lfpress.com'，端口=80):超过最大重试次数，网址:/2015/11/06/fair-with-a-flare-samosas- made-easy (由 NewConnectionError(': 无法建立新连接: [Errno 11001] getaddrinfo failed',))

我应该更改请求 API 中编写的代码吗？或者我需要使用一些代理？我如何离开该网站并转到下一个网站？因为错误正在停止我的执行。

最佳答案

在调用周围添加一个“try except” block 以捕获该异常，如果您不关心错误，则继续，例如:

import requests
try:
    requests.get('http://stackoverflow.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
    print repr(e)

关于python - 如何使用 Python 从网站上抓取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34571229/

上一篇：python - 使用 in1d 函数测试数组之间的相等性

下一篇：python - 如何对具有多个属性和 unicode 字符串的 python 字典进行排序

相关文章：

Python:如何从转换后的 csv 文件创建数据文件？

python - 更改父级继承的python类的方法

python-2.7 - 用 BeautifulSoup 替换 python 中的文本

python - python 中漂亮的 soup xml 格式

python - 使用抓取的数据填充 MySQL 表

python - 如何将 stdlib 日志记录与 py.test 结合起来

python 通过动态获取 url 的方式进行抓取

python，lxml检索列表中的所有元素

python - 使用 Python 抓取特定页面

javascript - 如何使用 cheerio 获取具有不同类的元素？