python - 从无限滚动的网页获取所有文章链接？

标签 python web-scraping rss beautifulsoup

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 7 年前。

我用 python 编程，并使用 beautiful soup 来解析来自 The History Channel's News Feed 的文章。。到目前为止，我可以弄清楚如何从各个文章中获取文章文本，但我无法弄清楚如何从无限提要中获取链接。我尝试插入 RSS 提要并使用 feedparser，但这仅提供 20 篇最新文章。

有没有办法获得更多我所缺少的东西？首选 Pythonic 方法!

最佳答案

在幕后，无限滚动通常是通过从可直接从 URL 访问的分页结果注入(inject)记录来处理的。

使用Postman Interceptor ，您可以发现分页结果的 url 架构。

此页面的第二页结果是:http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2

翻阅页面并刮掉!

关于python - 从无限滚动的网页获取所有文章链接？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34363246/