Python-手动浏览器登录后从urllib2恢复网络 session

标签 python browser authentication web-scraping

比如说,我浏览到一个需要登录才能访问内容的网站(也在 Intranet 上)。我将填写必填字段...例如从浏览器本身登录所需的用户名、密码和任何验证码等。

我登录该站点后,可以从登录后第一页上的多个链接和选项卡中获取很多好东西。

现在,从这一点开始(即从浏览器登录后)。我想控制页面并从 urllib2 下载...比如逐页浏览,在每一页上下载 pdf 和图像等.

我知道我们可以直接使用 urllib2(或机械化)中的所有内容(即登录页面并完成所有操作)。

但是,对于某些网站.. 浏览并找出登录机制、所需的隐藏参数、引荐来源网址、验证码、cookie 和弹出窗口真的很痛苦。

请指教。希望我的问题是有道理的。

总而言之,我希望使用网络浏览器手动完成初始登录部分...然后接管通过 urllib2 进行抓取的自动化。

最佳答案

你有没有考虑Selenium ?它是关于浏览器自动化而不是 http 请求 (urllib2),您可以在步骤之间操作浏览器。

关于Python-手动浏览器登录后从urllib2恢复网络 session ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12382319/

相关文章:

Python 迭代脚本随着迭代的进行而变慢

ruby - 使用 Ruby 将文件流式传输到浏览器

mysql - 如何在较新版本的 MySQL 中以编程方式验证密码?

ruby-on-rails - Ruby on Rails 的授权模型

rest - PHPStorm REST 客户端 - 基本身份验证

jquery - 有关 django-chunked-upload 和 jQuery-File-Upload 上传大文件的任何建议

Python:exec 总是不好的做法吗?如果是,为什么不弃用

python - 从内存中的zipFile中提取zipFile

android - 是否可以在 Android 版本 2 或更低版本上使用小于 8px 的 css 字体大小

html - 加载资源 Bootstrap 失败