python - 有没有办法抓取使用 python 加载的数据

标签 python web-scraping beautifulsoup scrapy

我正在从网站上抓取数据。我发现表格数据在页面的源代码中显示为正在加载。我想知道如何使用 python 收集这些数据。它似乎是一个 React js Web 应用程序。

URL: https://www.ycombinator.com/companies/

最佳答案

如果您转到“网络”选项卡,您会发现以下 API,它以 json 格式返回数据。 您不需要 seleniumbeautifulsoup

https://api.ycombinator.com/companies/export.json?

下面是代码。

import requests
res=requests.get("https://api.ycombinator.com/companies/export.json?").json()
for item in res:
    try:
      print('name:' + item['name'])
    except:
        continue
    try:
      print('URL:' + item['url'])
    except:
        continue

    try:
        print('batch:' + item['batch'])

    except:
        continue

    try:
        print('Description:' + item['description'])
    except:
        continue

API 快照

enter image description here

回应:

enter image description here

关于python - 有没有办法抓取使用 python 加载的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59425294/

相关文章:

python - 如何创建 tkinter 背景图像?

python - Flask Dispatcher 中间件 session

java - 空对象引用上的“java.lang.String org.jsoup.nodes.Element.text()”

java - 如何使用Jsoup获取html数据的特定子元素

Python,将所有链接、标题和正文文本附加到一个数组或 json 文件中

python - 带有换行符的网页抓取数据

python - 如何在闪存盘上创建 virtualenv

python - 尝试使用 python 脚本获取源时检测到不安全的依赖于完成的目录

python - 无法通过 BeautifulSoup 抓取

python - 从 html 页面中删除所有样式、脚本和 html 标记