我想定期从网页上抓取一些信息。最有可能让我的 IP 被禁止的时间间隔。有人建议我使用 Ghost.py 等 WebKit 来抓取数据,但保持连接打开,模拟浏览器中打开的选项卡。我对 WebKit 知之甚少,有人可以为我确认 Ghost.py 能够重用相同的连接,或者是否有任何其他首选建议。
最佳答案
您可以使用 PySocks 抓取正在运行的 Tor 实例。
在“Web Scraping with Python”一书中有一些这样做的例子(完全公开,我写的)
通过 Tor 进行基本抓取:https://github.com/REMitchell/python-scraping/blob/master/chapter14/1-socks.py
使用 Selenium 抓取(如果您需要执行 JavaScript,或类似的东西):https://github.com/REMitchell/python-scraping/blob/master/chapter14/2-seleniumSocks.py
关于python - 使用 Python 抓取网页时如何使用相同的连接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31960885/