我有点想自己写,但我现在真的没有足够的时间。我看过 open source crawlers 的 Wikipedia 列表但我更喜欢用 Python 编写的东西。我意识到我可能只使用 Wikipedia 页面上的一种工具并将其包装在 Python 中。我最终可能会这样做——如果有人对这些工具有任何建议,我愿意听取他们的意见。我通过它的网络界面使用了 Heritrix,我发现它非常麻烦。我绝对不会在即将到来的项目中使用浏览器 API。
提前致谢。另外,这是我的第一个 SO 问题!
最佳答案
- Mechanize是我的最爱;强大的高级浏览功能( super 简单的表单填写和提交)。
- Twill是一种建立在 Mechanize 之上的简单脚本语言
- BeautifulSoup + urllib2也很好用。
- Scrapy看起来是一个非常有前途的项目;这是新的。
关于python - 有人知道我可以使用的基于 Python 的优秀网络爬虫吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/419235/