python - 如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python)

标签 python web-scraping xmlhttprequest

这是我尝试抓取的网址:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我正在尝试使用 Python 来抓取网页,这意味着我将需要该页面的 XHR 请求,因为它是通过 JavaScript 加载的。

在开发者工具下检查网络后,我可以看到 XHR 请求:a10-qq320196292019.htm,它生成请求 URL:https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我的问题有两个,

  1. 如果我仅使用最初给出的 URL 进行访问,如何自动获取此请求 URL,
  2. 我如何知道这是我需要的 XHR 请求?这个特定的 URL 可以满足我的需求,但我注意到还有许多其他 XHR 请求。如何区分?

最佳答案

在这种情况下,我认为您不需要走那条路。您正在使用的链接 is an ixbrl view of the actual html document. html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它:

url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url

输出:

'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

关于python - 如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59528188/

相关文章:

python - 假设等效于 QuickCheck 频率发生器?

python - 在哪里实例化 Django/Python 应用程序的几个部分中使用的对象?

javascript - page.evaluate 中的 puppeteer 引用错误

vba - 在 HTMLElement 上使用 getElementById 而不是 HTMLDocument

python - 按线型对线进行分组

python - 如何使用 Python 对同名数组进行分组?

node.js - 使用 Node.js 抓取和存储 Shopify 电子商务网站

php - 使用 XMLHttpRequest 上传文件

file-upload - dojo.io.iframe.send 文件上传在IE8中发送GET请求

ajax - 如何使针对 Google Apps Script ContentService 的 XHR/ajax 请求起作用?