有一个网站可以在浏览器中愉快地打开,但在 Python 中打开时返回 403 HTTP 错误,如下所示:
from bs4 import BeautifulSoup
import urllib2
link = 'http://niezalezna.pl/'
r = urllib2.urlopen(link).read()
soup = BeautifulSoup(r, 'lxml')
print soup.prettify()
该网站是一个流行的新闻服务。使用上面的一段代码打开 URL 时是否可以返回 HTTP 403 错误? 谢谢,
最佳答案
由于上面的评论找到了答案。代码如下,完整答案可以在这里找到:Changing user agent on urllib2.urlopen
from bs4 import BeautifulSoup
import urllib2
link = 'http://niezalezna.pl/'
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
response = opener.open(link)
soup = BeautifulSoup(response, 'lxml')
print soup.prettify()
关于python - 网站在浏览器中打开,但在 Python 中打开时返回 403,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36705812/