虽然我已经编程一年了,但我对网络爬虫等还是有点陌生。所以请耐心等待我在这里解释我的问题。
我正在解析来自 Yahoo! 的信息新闻,我已经设法获得了我想要的大部分内容,但有一小部分让我很困惑。
例如:http://news.yahoo.com/record-nm-blaze-test-forest-management-225730172.html
我想获取评论中赞成和反对图标旁边的数字。当我在我的 Chrome 浏览器中使用“Inspect Element”时,我可以清楚地看到我必须寻找的东西——即 div 类“ugccmt-rate”下的 em 标签。但是,我无法在我的 python 程序中找到它。为了追查问题的根源,我点击查看页面源代码,似乎没有这个标签。你们知道我应该如何处理这个问题吗?这是否与页面上仅在运行后显示信息的javascript有关?如果能给我一些正确方向的指示,我将不胜感激。
谢谢。
最佳答案
该页面是通过 JavaScript 生成的。
先查看网站是否有手机版。如果没有,请检查任何 API 或 RSS/Atom 提要。如果没有其他什么,您要么必须手动确定 JavaScript 正在加载什么以及从何处加载,要么使用 Selenium使浏览器自动化,为您呈现 JavaScript 以供解析。
关于python - 从网站解析——源代码不包含我需要的信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10868410/