我尝试过搜索这个 - 似乎找不到答案!
我正在尝试对整个网页进行非常简单的抓取,以便我可以查找关键字。我正在使用以下代码:
import requests
Website = requests.get('http://www.somfy.com', {'User-Agent':'a'}, headers = {'Accept': '*/*'})
print (Website.text)
print (Website.status_code)
当我在浏览器(例如 Chrome 或 Firefox)中访问该网站时,它可以正常工作。当我运行 python 代码时,我只得到结果“Gone”(错误代码 410)。
我希望能够可靠地输入一系列网站网址,并拉回原始 html 以便能够查找关键字。
问题
1. 我做错了什么,我应该如何设置才能在未来获得最大的成功机会。
2. 您能给我指点一下如何解决问题吗?
非常感谢 - 对于初学者的问题深表歉意!
最佳答案
您的用户代理无效,并且您没有将其包含在 header 中。
我已经为您修复了您的代码 - 它返回 200 状态代码。
import requests
Website = requests.get('http://www.somfy.com', headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3835.0 Safari/537.36', 'Accept': '*/*'})
print (Website.text)
print (Website.status_code)
关于python - 使用 requests 函数下载页面时遇到问题 - 返回 410 html 错误代码,但在浏览器中有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60267241/