python - 有人知道我可以使用的基于 Python 的优秀网络爬虫吗?

标签 python web-crawler

我有点想自己写,但我现在真的没有足够的时间。我看过 open source crawlers 的 Wikipedia 列表但我更喜欢用 Python 编写的东西。我意识到我可能只使用 Wikipedia 页面上的一种工具并将其包装在 Python 中。我最终可能会这样做——如果有人对这些工具有任何建议,我愿意听取他们的意见。我通过它的网络界面使用了 Heritrix,我发现它非常麻烦。我绝对不会在即将到来的项目中使用浏览器 API。

提前致谢。另外,这是我的第一个 SO 问题!

最佳答案

  • Mechanize是我的最爱;强大的高级浏览功能( super 简单的表单填写和提交)。
  • Twill是一种建立在 Mechanize 之上的简单脚本语言
  • BeautifulSoup + urllib2也很好用。
  • Scrapy看起来是一个非常有前途的项目;这是新的。

关于python - 有人知道我可以使用的基于 Python 的优秀网络爬虫吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/419235/

相关文章:

python - 在 Python 中级联可选参数

python - 循环遍历多个字典并获取其中值为的字典名称

php - 删除重复链接

maven - StormCrawler maven打包错误

javascript - 爬虫抓取 chrome 扩展 id

python - 使用字典作为键划分两个 Pandas DataFrame

python - App Engine 多个电子邮件地址返回 404

python - 从列表/数组字典中迭代实例化类的最佳方法是什么?

java - 使用网络爬虫抓取网络数据