javascript - 如何在不修改 HTML 内容的情况下加载和解析 HTML

标签 javascript html .net perl dom

有多种方法可以使用多种技术来解析和遍历 HTML4 文件。但我找不到一个合适的来再次将该 DOM 保存到文件中。

我希望能够将 HTML 文件加载到 DOM 中,更改一件小事情(例如属性的值),再次将 DOM 保存到文件中,当比较源文件和创建的文件时,我希望它们是除了一点点变化之外,完全相同。

这种任务在使用 XML 和合适的 XML 库时绝对没有问题,但是当涉及到 HTML 时,就会出现几个问题:缩进或换行符等空白丢失或插入、自闭开始标记(例如为 <link...> )出现为 <link.../>和/或 CDATA 部分的内容(例如 <script></script> 之间)被包装到 <![CDATA[]]> 。这些事情对我来说至关重要。

我可以采用哪种方式来加载、遍历、操作和保存 HTML,而不会出现上述缺点,最重要的是不会更改空白文本节点?

最佳答案

comparison

如果你想真正认真地放弃 GUI 并去 headless ,SO例如 Phantom

关于javascript - 如何在不修改 HTML 内容的情况下加载和解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30057042/

相关文章:

javascript - jquery onclick 为拉出添加背景覆盖

javascript - 正则表达式:提取 SVG 路径 d 属性

javascript - 为表格行的所有输入元素分配 ID 和名称?

javascript - Foundation5 Canvas 外无法工作

c# - 如何从静态 main() 调用方法?

javascript - JavaScript 函数是否调用 LeftHandSideExpression,从而调用 ExpressionStatement?

javascript - 从 HTML 复制的电子邮件在 Thunderbird 中不起作用

java - ${pageContext.request.contextPath} 在本地工作,但不能远程工作

.net - Windows - 将键盘键映射到与鼠标左键相同的操作

C# -(Unity .NET 项目)如何包含引用脚本但不应编译