python-3.x - Python - 请求模块 - 检索网页时出现 HTTP 500 错误

标签 python-3.x http beautifulsoup httprequest

此代码应下载 html 页面并将其打印到屏幕,但我却收到 HTTP 500 错误异常,我不知道如何管理。

有什么想法吗?

import requests ,bs4

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:39.0) Gecko/20100101 Firefox/39.0'}

#Load mainPage
_requestResult = requests.get("http://www.geometriancona.it/categoria_albo/albo/",headers = headers, timeout = 20)
_requestResult.raise_for_status()
_htmlPage = bs4.BeautifulSoup(_requestResult.text, "lxml")
print(_htmlPage)

#search for stuff in html code

最佳答案

您可以使用 urllib 模块下载单个 URL,但这只会返回数据。它不会解析 HTML 并自动下载 CSS 文件和图像等内容。 如果你想下载“整个”页面,你需要发短信来解析 HTML 并找到你需要下载的其他东西。您可以使用 Beautiful Soup 之类的东西来解析您检索到的 HTML。 This question有一些示例代码正是这样做的。

关于python-3.x - Python - 请求模块 - 检索网页时出现 HTTP 500 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41660618/

相关文章:

java - 怎么可能对字符串进行两次编码?

python - 如何正确地将每一大块数据保存为 Pandas 数据框并将它们相互连接

简单来说 HTTP

linux - 阻止 apache 将基本身份验证 header 转发到反向代理 tomcat 站点

Python - 使用 BeautifulSoup 进行抓取不显示所有行

python - BeautifulSoup .children 或 .content 标签之间没有空格

python-3.x - 类型错误 : 'module' object is not callable error?

python - numpy.transpose 的时间复杂度

c++ - 纯粹通过原始套接字连接连接到网站

python - 我怎样才能刮掉所有击球手的名字?