python - 如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python)

这是我尝试抓取的网址:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我正在尝试使用 Python 来抓取网页，这意味着我将需要该页面的 XHR 请求，因为它是通过 JavaScript 加载的。

在开发者工具下检查网络后，我可以看到 XHR 请求:a10-qq320196292019.htm，它生成请求 URL:https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我的问题有两个，

如果我仅使用最初给出的 URL 进行访问，如何自动获取此请求 URL，
我如何知道这是我需要的 XHR 请求？这个特定的 URL 可以满足我的需求，但我注意到还有许多其他 XHR 请求。如何区分？

最佳答案

在这种情况下，我认为您不需要走那条路。您正在使用的链接 is an ixbrl view of the actual html document. html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它:

url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url

输出:

'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

关于python - 如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59528188/

上一篇：python - 如何在按住某个键的同时暂停视频流？ Python OpenCV

下一篇：python - 如何在Python中结合日语和拉丁语对字符串列表进行排序

相关文章：

python - 假设等效于 QuickCheck 频率发生器？

python - 在哪里实例化 Django/Python 应用程序的几个部分中使用的对象？

javascript - page.evaluate 中的 puppeteer 引用错误

vba - 在 HTMLElement 上使用 getElementById 而不是 HTMLDocument

python - 按线型对线进行分组

python - 如何使用 Python 对同名数组进行分组？

node.js - 使用 Node.js 抓取和存储 Shopify 电子商务网站

php - 使用 XMLHttpRequest 上传文件

file-upload - dojo.io.iframe.send 文件上传在IE8中发送GET请求

ajax - 如何使针对 Google Apps Script ContentService 的 XHR/ajax 请求起作用？