python - 如何抓取 https 页面?

标签 python lxml scrape

<分区>

我正在使用带有“lxml”和“请求”的 python 脚本来抓取网页。我的目标是从页面中获取一个元素并下载它,但内容位于 HTTPS 页面上,我在尝试访问页面中的内容时遇到错误。我确定我必须包含某种证书或身份验证,但我正在努力寻找合适的资源。我正在使用:

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'))

错误是:

requests.exceptions.SSLError: [Errno 185090050] _ssl.c:340: error:0B084002:x509 certificate routines:X509_load_cert_crl_file:system lib

最佳答案

在 GET 请求中添加 verify=False 可以解决问题。

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'), verify=False)

关于python - 如何抓取 https 页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23416599/

相关文章:

python - 使用 python ctypes 检测 Shift 键按下情况

python - Pika BlockingConnection 和 RabbitMQ : connection closed

python - 无法使用 xpath 获取 youtube 视频的持续时间

python - 使用 python 编辑 html,但 lxml 将漂亮的 html 实体转换为奇怪的编码

python - Windows 上的 lxml 错误 - AttributeError : module 'lxml' has no attribute 'etree'

ruby - Ruby 中可用的网页抓取 gem /工具

python - 将对象附加到列表时删除引号

python - 如何设置高水位线以阻止 pyzmq 中被淹没的收件人?

Python Selenium - 'Unable to locate element' 可见后

javascript - 用于受密码保护的网站的 nodejs 网络抓取工具