python - 从无限滚动的网页获取所有文章链接?

标签 python web-scraping rss beautifulsoup

我用 python 编程,并使用 beautiful soup 来解析来自 The History Channel's News Feed 的文章。 。到目前为止,我可以弄清楚如何从各个文章中获取文章文本,但我无法弄清楚如何从无限提要中获取链接。我尝试插入 RSS 提要并使用 feedparser,但这仅提供 20 篇最新文章。

有没有办法获得更多我所缺少的东西?首选 Pythonic 方法!

最佳答案

在幕后,无限滚动通常是通过从可直接从 URL 访问的分页结果注入(inject)记录来处理的。

使用Postman Interceptor ,您可以发现分页结果的 url 架构。

此页面的第二页结果是:http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2

翻阅页面并刮掉!

关于python - 从无限滚动的网页获取所有文章链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34363246/

相关文章:

python - 无法解析链接中使用的数字

php - 如何使用 Goutte 在 laravel 5.2 中进行抓取?

javascript - 动态更新 RSS 提要 URL

android - 如何从新闻网站获取完整的新闻内容

python - 如何配置一个 uWSGI 站点来使用与构建 uWSGI 时不同的 Python 解释器? (uWSGI + virtualenv + emperor)

Python:在加载 `sys.argv`模块之前找到 `sys`

python - 在 python 中使用 selenium 迭代所有元素

database-design - 如何标记 RSS 源的未读项目?

Python django 管理 : How can I show only items belonging to specific model in an admin page?

Python - 初学者用 Beautiful Soup 4 抓取 - onmouseover