python - 使用 requests 函数下载页面时遇到问题 - 返回 410 html 错误代码,但在浏览器中有效

标签 python web-scraping python-requests

我尝试过搜索这个 - 似乎找不到答案!

我正在尝试对整个网页进行非常简单的抓取,以便我可以查找关键字。我正在使用以下代码:

import requests
Website = requests.get('http://www.somfy.com', {'User-Agent':'a'}, headers = {'Accept': '*/*'})
print (Website.text)
print (Website.status_code)

当我在浏览器(例如 Chrome 或 Firefox)中访问该网站时,它可以正常工作。当我运行 python 代码时,我只得到结果“Gone”(错误代码 410)。

我希望能够可靠地输入一系列网站网址,并拉回原始 html 以便能够查找关键字。

问题
1. 我做错了什么,我应该如何设置才能在未来获得最大的成功机会。
2. 您能给我指点一下如何解决问题吗?

非常感谢 - 对于初学者的问题深表歉意!

最佳答案

您的用户代理无效,并且您没有将其包含在 header 中。

我已经为您修复了您的代码 - 它返回 200 状态代码。

import requests
Website = requests.get('http://www.somfy.com', headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3835.0 Safari/537.36', 'Accept': '*/*'})
print (Website.text)
print (Website.status_code)

关于python - 使用 requests 函数下载页面时遇到问题 - 返回 410 html 错误代码,但在浏览器中有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60267241/

相关文章:

python - 带参数的 Flask 表单

python - 自动配对和 Python 字符串

R:POST 后抓取附加数据仅适用于第一页

python - 使用 Python 和 BeautifulSoup 抓取时模拟单击链接

python - 从 Instagram 中提取关注者数量

python - 有没有一种巧妙的方法将 lithoxyl 集成到 Flask.logger 中?

python 元类不记得新值

html - 使用 R 在 imdb 中抓取网页

python - 如何在 python 中发送带有请求的 “multipart/related”?

python - cURL 查询有效,但 python 请求失败