python - ReadTimeout : HTTPSConnectionPool(host ='' , 端口=443) : Read timed out. (读取超时=10)

标签 python python-3.x web-scraping beautifulsoup python-requests

我正在网站上进行网页抓取,有时运行脚本时会出现此错误:

ReadTimeout: HTTPSConnectionPool(host='...', port=443): Read timed out. (read timeout=10)

我的代码:

url = 'mysite.com'
all_links_page = []
page_one = requests.get(url, headers=getHeaders(), timeout=10)
sleep(2)
if page_one.status_code == requests.codes.ok:
    soup_one = BeautifulSoup(page_one.content.decode('utf-8'), 'lxml')
    page_links_one = soup_one.select("ul.product_list") 

    for links_one in page_links_one:
        for li in links_one.select("li"):
            all_links_page.append(li.a.get("href").strip())

我找到的答案并不令人满意

最佳答案

我通过增加超时得到了帮助,立即设置为 120 秒。事实证明,服务器在 40 秒内就收到了响应。

关于python - ReadTimeout : HTTPSConnectionPool(host ='' , 端口=443) : Read timed out. (读取超时=10),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57994570/

相关文章:

python - 使用 PPID 创建文件

python - 如何将用 C++ 编写的函数 ("noblock") 导入 GRC

python-3.x - Python根据变量名创建对象

python - 在 numpy 数组上应用统计方法 : unexpected results

python - 无法使用发布请求进入下一页

python - Xpath 提取某些字符之间的日期并用作日期

css - 使用 rvest 从 CSS 中抓取标题属性

python - 发生了什么 b=a[ :] in python?

Python Beautiful soup 在html中插入注释

python - 如何正确使用 App Engine Python 模型类的自定义 __init__?