python - 美汤找不到标签

标签 python beautifulsoup

我目前正在尝试使用 Python 3.6 中的请求和 BeautifulSoup 模块进行练习,但遇到了一个问题,我似乎无法在其他问题和答案中找到任何相关信息。

似乎在页面的某个位置,Beuatiful Soup 停止识别标签和 ID。我正在尝试从这样的页面中提取播放数据:

http://www.pro-football-reference.com/boxscores/201609080den.htm

import requests, bs4

source_url = 'http://www.pro-football-reference.com/boxscores/201609080den.htm'
res = requests.get(source_url)
if '404' in res.url:
    raise Exception('No data found for this link: '+source_url)

soup = bs4.BeautifulSoup(res.text,'html.parser')

#this works
all_pbp = soup.findAll('div', {'id' : 'all_pbp'})
print(len(all_pbp))

#this doesn't
table = soup.findAll('table', {'id' : 'pbp'})
print(len(table))

使用 Chrome 中的检查器,我可以看到该表确实存在。我还尝试在 HTML 后半部分的 'div's 和 'tr's 上使用它,但它似乎不起作用。我已经尝试过标准的“html.parser”以及 lxml 和 html5lib,但似乎没有任何效果。

我是不是做错了什么,或者 HTML 或其格式中是否有什么东西阻止 BeautifulSoup 正确地找到后面的标签?我在这家公司(hockey-reference.com、basketball-reference.com)运行的类似页面上遇到过问题,但能够在其他网站上正确使用这些工具。

如果它与 HTML 有关,是否有更好的工具/库来帮助提取这些信息?

谢谢你的帮助, 高炉

最佳答案

BS4 在对 URL 进行 GET 请求后将无法执行网页的 javascript。我认为关注表是从客户端 javascript 异步加载的。

因此,客户端 javascript 需要在抓取 HTML 之前先运行。这post描述了如何做到这一点!

关于python - 美汤找不到标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44867425/

相关文章:

python - 如何使用 RMSE 和 MAE 性能指标比较随机森林(无缩放)和 LSTM(有缩放)

python - 在 python 中,为什么要从内置模块导入 'object'?

python - 用 python 抓取 .aspx 页面

javascript - Python处理如何与Meteor链接

python - NetworkX DiGraph按节点创建子图(DiGraph)

python - transaction.commit_unless_managed() python有什么用

python - UnicodeEncodeError : 'charmap' codec can't encode characters

Python - 是否有更有效的方法来查找这些参数值?

python - 使用 BeautifulSoup 解析网页——跳过 404 错误页面

python - 我的脚本无法从网页获取食品店的名称