python - 有没有办法抓取使用 python 加载的数据

标签 python web-scraping beautifulsoup scrapy

关闭。此题需要details or clarity 。目前不接受答案。

想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题.

已关闭 3 年前。

Improve this question

我正在从网站上抓取数据。我发现表格数据在页面的源代码中显示为正在加载。我想知道如何使用 python 收集这些数据。它似乎是一个 React js Web 应用程序。

URL: https://www.ycombinator.com/companies/

最佳答案

如果您转到“网络”选项卡，您会发现以下 API，它以 json 格式返回数据。您不需要 selenium 或 beautifulsoup。

https://api.ycombinator.com/companies/export.json?

下面是代码。

import requests
res=requests.get("https://api.ycombinator.com/companies/export.json?").json()
for item in res:
    try:
      print('name:' + item['name'])
    except:
        continue
    try:
      print('URL:' + item['url'])
    except:
        continue

    try:
        print('batch:' + item['batch'])

    except:
        continue

    try:
        print('Description:' + item['description'])
    except:
        continue

API 快照