python - 有人知道我可以使用的基于 Python 的优秀网络爬虫吗？

标签 python web-crawler

我有点想自己写，但我现在真的没有足够的时间。我看过 open source crawlers 的 Wikipedia 列表但我更喜欢用 Python 编写的东西。我意识到我可能只使用 Wikipedia 页面上的一种工具并将其包装在 Python 中。我最终可能会这样做——如果有人对这些工具有任何建议，我愿意听取他们的意见。我通过它的网络界面使用了 Heritrix，我发现它非常麻烦。我绝对不会在即将到来的项目中使用浏览器 API。

提前致谢。另外，这是我的第一个 SO 问题!

最佳答案

Mechanize是我的最爱；强大的高级浏览功能( super 简单的表单填写和提交)。
Twill是一种建立在 Mechanize 之上的简单脚本语言
BeautifulSoup + urllib2也很好用。
Scrapy看起来是一个非常有前途的项目；这是新的。

关于python - 有人知道我可以使用的基于 Python 的优秀网络爬虫吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/419235/

上一篇：python - matplotlib 设置 yaxis 标签大小

下一篇：python - Python中 block 之前的冒号的目的是什么？

相关文章：

python - 在 Python 中级联可选参数

python - 循环遍历多个字典并获取其中值为的字典名称

php - 删除重复链接

maven - StormCrawler maven打包错误

javascript - 爬虫抓取 chrome 扩展 id

python - 使用字典作为键划分两个 Pandas DataFrame

python - App Engine 多个电子邮件地址返回 404

python - 从列表/数组字典中迭代实例化类的最佳方法是什么？

java - 使用网络爬虫抓取网络数据