我正在尝试为 sbrodds.com 编写一个抓取引擎。不幸的是我需要登录才能获取正确的数据。我研究了 mechanize 和 selenium,但遗憾的是我对 python 和网络抓取很差,并且不了解如何使用它们。
有人可以提供关于我应该使用什么技术在 Python 代码中登录此网站的建议吗?目标是最终将登录页面的数据加载到 BeautifulSoup 中。
最佳答案
通常只需要请求就足够了......为什么你需要基于 javascript ?
import requests
r = requests.Session()
r.post("http://sbrodds.com/login",{"username":"bob","password":"sagat"})
content = r.get("http://sbrodds.com/some_page").text
至少是这样的......(你可能还需要一个 csrf_token 或其他东西)
关于用于页面抓取的基于 Javascript 的 Web 登录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34191303/