javascript - 如何从 Microsoft 更新目录网页获取更新二进制 URL?

标签 javascript python web-scraping beautifulsoup html-parsing

我正在尝试从 Microsoft 更新目录网页获取更新二进制文件的下载 URL。下载按钮将我带到一个新窗口,其中显示了目标二进制 URL。

如何通过解析目录网页来获取二进制 URL。

我尝试了以下方法

import urllib.request

def main():
    url = 'https://catalog.update.microsoft.com/v7/site/Search.aspx?q=KB3205400'
    offlinePage = 'catalog.html'
    print(url)
    sourceWebPage(url, offlinePage)

def sourceWebPage(url, offlinePage):
    request=urllib.request.Request(url,None,headers)
    response = urllib.request.urlopen(request)
    data = response.read()
    with open(offlinePage, 'wb') as f:
        f.write(data)

if __name__ == '__main__':
    main()

但是保存的 HTML 源文件没有任何指向目标二进制 URL 的链接。

最佳答案

<a id="431bdad0-e68b-4275-8f14-e9c90fa2a9b0_link" href="javascript:void(0);" onclick="goToDetails(&quot;431bdad0-e68b-4275-8f14-e9c90fa2a9b0&quot;);">

下载弹出窗口是由 JavaScript 生成的,您不能使用 requestsurllib 来处理 JavaScript。我建议你使用 Selenium ..

关于javascript - 如何从 Microsoft 更新目录网页获取更新二进制 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41532213/

相关文章:

javascript - 使用 Jquery 和 ajax 更新 HTML 表

javascript - donut 饼图 - 添加标题 - NVd3.js

javascript - Node js - 如何返回多维数组

python - Pandas 数据帧 : how to get column mean valuebut taking into account only the rows that have lower index than the one I want to get the mean

python - Docker和单个python文件

javascript - 使用 Node Js 服务器运行 Angular2 应用程序

python - 我可以将 Python 控制台脚本放入子模块中吗?

python - Beautifulsoup 网络爬虫问题

python - 无法使用请求从脚本标签中抓取不同专辑的链接?

使用 rvest 进行网页抓取时出现 R 内存问题