python - 网页抓取 : output different to original data

标签 python html web-scraping beautifulsoup python-requests

我正在尝试对显示倒数计时器的网站进行网络抓取(目标是最终制作一个不和谐的机器人,在请求时显示计时器上剩余的剩余时间)。但是在打印数据时,输出结果与原始数据不同。

环顾四周,我找不到解决问题的方法。我确定我遗漏了一些东西,但对它是什么一无所知(我只是作为个人项目来做,以前很少使用 python)

import requests
from bs4 import BeautifulSoup

result = requests.get("https://www.wowclassiccountdown.com/")
result.status_code
result.headers

c = result.content

soup = BeautifulSoup(c)

samples = soup.find_all("div", "fusion-digit")
samples[0]

data = {}
for div in samples:
    title = div.string.strip()
    data[title] = div.attrs['class']

    # displays data
    print(data)

我无法告诉您预期的输出是什么,因为它总是在变化,但显然不应该全为 0。有人可以向我解释一下吗?

最佳答案

您尝试抓取的网站正在使用 Javascript 进行倒计时(尝试在您的网络浏览器中禁用 Javascript,您会看到倒计时将自行设置为 0)。遗憾的是,这使得无法使用请求库来抓取

关于python - 网页抓取 : output different to original data,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55724199/

相关文章:

python - 无法在 mac osx 10.10 上构建 python gevent

python - 无法从终端运行 Flask, “No module named ' my_app'”

python - 如何使我的 session.get() 链接到变量?

html - 输入类型数字字段接受字母而不是 firefox 和 IE 中的数字

python - 从表中垂直读取抓取的数据,而不是水平读取 Python

c# - 如何只从网站上删除 <body> 标签

python - 创建新列,其中日期对应于一个数量是否大于或等于另一个数量

html - 如何在mvc中创建指向不同网站的链接

python - 从浏览器获取输入 - python + 表单

python - 抓取不伦不类的标签之间的文本