有没有一种简单的方法来抓取 Google 并为给定搜索写入前 N 个(比如 1000 个).html(或其他)文档的文本(只是文本)?
举个例子,想象一下搜索短语“big bad wolf”并只下载前 1000 个命中的文本——即实际从这 1000 个网页(但只是那些页面,而不是整个站点)下载文本).
我假设这会使用 urllib2 库?如果有帮助,我会使用 Python 3.1。
最佳答案
查看 BeautifulSoup用于从网页中抓取内容。它应该非常容忍损坏的网页,这将有所帮助,因为并非所有结果都格式正确。所以你应该能够:
- 请求 http://www.google.ca/search?q=QUERY_HERE
- 使用 BeautifulSoup 提取并跟踪结果链接(结果链接看起来好像是 class="r")
- 使用 BeautifulSoup 从结果页面中提取文本
关于Python - 抓取谷歌的简单方法,下载给定搜索的前 N 个命中(整个 .html 文档)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5321434/