python - 使用 Python 抓取网页时如何使用相同的连接?

标签 python webkit screen-scraping

我想定期从网页上抓取一些信息。最有可能让我的 IP 被禁止的时间间隔。有人建议我使用 Ghost.py 等 WebKit 来抓取数据,但保持连接打开,模拟浏览器中打开的选项卡。我对 WebKit 知之甚少,有人可以为我确认 Ghost.py 能够重用相同的连接,或者是否有任何其他首选建议。

最佳答案

您可以使用 PySocks 抓取正在运行的 Tor 实例。

在“Web Scraping with Python”一书中有一些这样做的例子(完全公开,我写的)

通过 Tor 进行基本抓取:https://github.com/REMitchell/python-scraping/blob/master/chapter14/1-socks.py

使用 Selenium 抓取(如果您需要执行 JavaScript,或类似的东西):https://github.com/REMitchell/python-scraping/blob/master/chapter14/2-seleniumSocks.py

关于python - 使用 Python 抓取网页时如何使用相同的连接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31960885/

相关文章:

python - 如何在 seaborn/matplotlib 中放大直方图?

Python在子类中使用父类的变量

python - 使用 DBSCAN 聚类 word2vec 输出的故障排除技巧

Python for 循环以不满足条件结束

javascript - 在指定的 onkeydown 上将对象旋转 45 度

html - webkit - 中心链接文本

javascript - 从 JavaScript 传递给 Qt/C++ 对象的字符串

python - 抓取可以应用到这个正在主动重新计算的页面吗?

python - 使用 python 正则表达式抓取 html

python - 问题爬取亚马逊,元素无法滚动到 View 中