这是我尝试抓取的网址:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
我正在尝试使用 Python 来抓取网页,这意味着我将需要该页面的 XHR 请求,因为它是通过 JavaScript 加载的。
在开发者工具下检查网络后,我可以看到 XHR 请求:a10-qq320196292019.htm,它生成请求 URL:https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
我的问题有两个,
- 如果我仅使用最初给出的 URL 进行访问,如何自动获取此请求 URL,
- 我如何知道这是我需要的 XHR 请求?这个特定的 URL 可以满足我的需求,但我注意到还有许多其他 XHR 请求。如何区分?
最佳答案
在这种情况下,我认为您不需要走那条路。您正在使用的链接 is an ixbrl view of the actual html document. html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它:
url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url
输出:
'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
关于python - 如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59528188/