当使用 wget 创建我的网站的静态副本时,有几个元素需要通过 javascript 引入外部资源。脚本的模式应该相当恒定,并且不会动态创建 URL。我需要提取的网址如下所示:
onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})"
我想将这些 URL 的列表输出到本地文件,以便我也可以获取它们。
最佳答案
使用 perl + HTML::TreeBuilder 提取您的辅助代码,然后解析它。
您可能需要做一些正则表达式工作,即这个模块可能只能让您吸收“onclick()”事件 - 但获得其余的应该不会太糟糕。
关于javascript - 使用 grep 捕获 javascript 链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3864172/