python - 使用 Python 抓取 Google - requests.get 的正确 URL 是什么?

标签 python url web-scraping python-requests google-search

目标:我想验证特定的 Google 搜索在右侧是否有建议结果 - 如果有这样的建议 - 抓取一些信息,例如公司类型/地址/等等

Google search result page with suggestion on right hand side

方法:我想使用带有 Requests 和 BeautifulSoup4 的 Python scraper

import bs4
import requests

address='https://www.google.co.ve/?gws_rd=cr&ei=DgBqVpWJMoPA-gHy25fACg#q=caracas+arepa'
page = requests.get(address)
soup = bs4.BeautifulSoup(page.content,'html.parser')
print (soup.prettify())

问题:

请求的页面不包含搜索结果(我不确定Google页面上的某些变量是否设置为不可见?),而仅包含Google页面的页眉和页脚

问题:

  1. 获取所描述信息的其他方法?有什么想法吗?

  2. 一旦我用所描述的方法获得了结果,但各自的地址的构造不同(我记得Google URL中的许多数字,但遗憾的是无法重现搜索地址)。因此:是否需要 Google URL 才能通过 requests.get 进行抓取?

最佳答案

从 Google 地方信息等服务获取信息的最佳方式几乎总是 the official API 。也就是说,如果您执意要抓取数据,则 HTTP 请求返回的内容很可能是供浏览器呈现的。 BeautifulSoup 所做的并不等同于渲染它接收到的数据,因此您很可能只是得到无用的空容器,然后动态填充这些容器。

关于python - 使用 Python 抓取 Google - requests.get 的正确 URL 是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34479656/

相关文章:

python - Django Rest Framework - 非字段错误自定义消息

javascript - 如何监听url的变化(Fragment identifier - the anchor part of a URL)

python - 通过 Python 中的网页抓取工具登录网站

javascript - 如何使用 javascript 将相对 href 属性转换为绝对路径?

python - 如何忽略 Selenium 中的异常?

python - 按网站上的未知按钮下载 CSV 文件时出现问题

Python 线程在 join 后没有关闭

python - 安全地评估简单的字符串方程

python - Kerras : Found 39 images belonging to 3 classes. 找到属于 3 个类的 49 个图像

javascript - 如何从URL收集变量,将其插入数组并动态更改href URL?