Python - 抓取谷歌的简单方法，下载给定搜索的前 N 个命中(整个 .html 文档)？

有没有一种简单的方法来抓取 Google 并为给定搜索写入前 N 个(比如 1000 个).html(或其他)文档的文本(只是文本)？

举个例子，想象一下搜索短语“big bad wolf”并只下载前 1000 个命中的文本——即实际从这 1000 个网页(但只是那些页面，而不是整个站点)下载文本).

我假设这会使用 urllib2 库？如果有帮助，我会使用 Python 3.1。

最佳答案

查看 BeautifulSoup用于从网页中抓取内容。它应该非常容忍损坏的网页，这将有所帮助，因为并非所有结果都格式正确。所以你应该能够:

关于Python - 抓取谷歌的简单方法，下载给定搜索的前 N 个命中(整个 .html 文档)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5321434/

相关文章：

python - Django M2MFields 'through' 小部件

Python - 抓取谷歌的简单方法，下载给定搜索的前 N ​​个命中(整个 .html 文档)？