javascript - 抓取整个网页 + css + javascript

标签 javascript css go web-scraping

<分区>

我正在尝试创建网页版本控制备份/日志。如果网页(包括 JS 和 CSS)被更改,它会在驱动器上保存一个静态副本。

如何获取网页的 CSS 和 javascript?只需连接到网页并读取内容并返回,即可轻松获取 HTML。但是我如何获得此页面的 CSS 和 Javascript 呢?

系统无法直接访问网络服务器,因此我必须通过网络远程执行所有操作。

我的想法是搜索我抓取的 HTML .css 和 '.js' 并获取所有内容直到第一个引号 " 并直接访问 CSS/javascript 文件作为网页。但我认为这可能不是很可靠?

不确定为什么将其标记为过于宽泛。我在问如何获取网页的 CSS 和 javascript。我修改了我的问题,希望现在更好。

最佳答案

而不是搜索 .js.css , 我会寻找 <script><link>标签并使用它们的 srchref属性分别执行另一个网络请求并检索这些文件以进行比较。

这会更可靠,因为您不必担心页面内容包含 jscss ,您还可以使用 XML 解析器来确保诸如单引号与双引号之类的事情不是问题。

关于javascript - 抓取整个网页 + css + javascript,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46834341/

相关文章:

javascript - JSON 不适用于 Opera Mini 浏览器

css - 如何在 STAY 2 列的 ContentPlaceholder 中安排 2 列 div?

nginx - 如何将 nginx 与 Go 一起用于子域?

go - 是否可以在不运行 go install 的情况下更新本地软件包?

go - 如何通过 go imap 库标记 imap 消息/已删除

javascript - 日期选择器的新西兰时区格式是什么

javascript - 为什么我的 JS 代码没有向 HTML 页面显示消息?

html - 如何在所有屏幕尺寸上保持导航栏折叠?

javascript - Backbone : create model and put the id from server in the success

jquery - Accordion 选择的数据无法正常工作