Python - 抓取谷歌的简单方法,下载给定搜索的前 N ​​个命中(整个 .html 文档)?

标签 python web-scraping urllib2 google-search

有没有一种简单的方法来抓取 Google 并为给定搜索写入前 N 个(比如 1000 个).html(或其他)文档的文本(只是文本)?

举个例子,想象一下搜索短语“big bad wolf”并只下载前 1000 个命中的文本——即实际从这 1000 个网页(但只是那些页面,而不是整个站点)下载文本).

我假设这会使用 urllib2 库?如果有帮助,我会使用 Python 3.1。

最佳答案

查看 BeautifulSoup用于从网页中抓取内容。它应该非常容忍损坏的网页,这将有所帮助,因为并非所有结果都格式正确。所以你应该能够:

关于Python - 抓取谷歌的简单方法,下载给定搜索的前 N ​​个命中(整个 .html 文档)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5321434/

相关文章:

python - Django M2MFields 'through' 小部件

Python random.random - 滚动 0 的机会

Python Spyder 显示符号数学

php - 嵌套选择器无法使用简单的 html dom 解析器

python - 读取文件导致的错误

javascript - 使用 Python 检索 javascript 文件内容

python - 通过scrapy模拟表单登录

Python HTTP HEAD - 正确处理重定向?

Python urllib2 代码在一台机器上返回 "HTTP error 503",但在另一台机器上不返回

python - 使用 Python 编写的谷歌图像抓取器与网络浏览器之间的不同 html 代码结果(UI)