python - 从网站解析——源代码不包含我需要的信息

标签 python html parsing web-crawler

虽然我已经编程一年了,但我对网络爬虫等还是有点陌生​​。所以请耐心等待我在这里解释我的问题。

我正在解析来自 Yahoo! 的信息新闻,我已经设法获得了我想要的大部分内容,但有一小部分让我很困惑。

例如:http://news.yahoo.com/record-nm-blaze-test-forest-management-225730172.html

我想获取评论中赞成和反对图标旁边的数字。当我在我的 Chrome 浏览器中使用“Inspect Element”时,我可以清楚地看到我必须寻找的东西——即 div 类“ugccmt-rate”下的 em 标签。但是,我无法在我的 python 程序中找到它。为了追查问题的根源,我点击查看页面源代码,似乎没有这个标签。你们知道我应该如何处理这个问题吗?这是否与页面上仅在运行后显示信息的javascript有关?如果能给我一些正确方向的指示,我将不胜感激。

谢谢。

最佳答案

该页面是通过 JavaScript 生成的。

先查看网站是否有手机版。如果没有,请检查任何 API 或 RSS/Atom 提要。如果没有其他什么,您要么必须手动确定 JavaScript 正在加载什么以及从何处加载,要么使用 Selenium使浏览器自动化,为您呈现 JavaScript 以供解析。

关于python - 从网站解析——源代码不包含我需要的信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10868410/

相关文章:

parsing - 如何使用 nom 精确匹配一个字节?

c# - C# 上的 Vhdl 解析器

python - 我怎样才能聚类大约 500000 个字符串

javascript - Bootstrap v4.3 Navbar 没有正确动画折叠的非导航栏元素的显示过渡

javascript - Javascript 函数分配给按钮单击的问题

html - IE11 : Text of input field slips below the bottom border

c - 标准 C 库中是否有 strchr() 的多字符版本?

python - 用其上方单元格的值填充 Pandas 数据框中的空白单元格

python - 值错误: Cannot take the length of Shape with unknown rank

python - Keras 看到我的 GPU 但在训练神经网络时不使用它