我用 python 编程,并使用 beautiful soup 来解析来自 The History Channel's News Feed 的文章。 。到目前为止,我可以弄清楚如何从各个文章中获取文章文本,但我无法弄清楚如何从无限提要中获取链接。我尝试插入 RSS 提要并使用 feedparser,但这仅提供 20 篇最新文章。
有没有办法获得更多我所缺少的东西?首选 Pythonic 方法!
最佳答案
在幕后,无限滚动通常是通过从可直接从 URL 访问的分页结果注入(inject)记录来处理的。
使用Postman Interceptor ,您可以发现分页结果的 url 架构。
此页面的第二页结果是:http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2
翻阅页面并刮掉!
关于python - 从无限滚动的网页获取所有文章链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34363246/