python - 使用 python 和 bs4 抓取后的不同数据

标签 python python-3.x web-scraping beautifulsoup amazon

我正在尝试获取亚马逊上的评论数量。 但是,当我获取数据时,它与网站上的数据不同。 (131 是在抓取之后,655 来自亚马逊) 我附上页面截图和抓取后的截图。

131 reviews

655 reviews

From inspect element

import bs4
import requests
import time


url3 = "https://www.amazon.it/dp/B076S8NSCD"

headers = {"User-Agent" : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}

res = requests.get(url3, headers = headers)

soup = bs4.BeautifulSoup(res.text, "html.parser")


reviews = soup.find(id = "acrCustomerReviewText").get_text()
print(reviews)

最佳答案

如果您没有使用高级版 rotating residential proxies要抓取亚马逊评论,这很可能是一种伪装措施,您的 IP 被标记为发送过多请求。

关于python - 使用 python 和 bs4 抓取后的不同数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60282010/

相关文章:

python - 求解 Frenet 框架的非线性 ODE 系统

python - 在 tkinter GUI 中打印变量

javascript - Lua、Scrapy/Splash : Clicking button with no href

python-3.x - 模块未找到错误: No module named '__main__.xxxx' ; '__main__' is not a package

javascript - 如何仅提取下面示例代码中的数字 1780

python - 使用 pandas 查找是否有两列名称不同但值相同

python - 无法使用 Django manage.py 创建 super 用户

python - 类型错误 : 'int' object is not callable on line 2

python - 在AWS lambda函数中使用scrapy作为层

python - BeautifulSoup 返回 None 即使该元素存在