html - 如何解析和规范化来自不同 HTML 生成器的 HTML？

这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段，并用 InDesign 标签重新标记它们。

Blogger 并未对其任何帖子的 HTML 进行标准化，并且可以使用 Word、Windows Live Writer、 native Blogger 界面或文本编辑器编写帖子，从而产生大量不同形式的 HTML。有些帖子不标记段落，只使用双 <br> s 在段落之间——其他人使用实际的 <p>标签。

解析这种不标准的标签集合的最佳方法是什么？

此外，每个帖子都不是一个完整的 HTML 文件——只是插入到模板中的片段——这意味着没有要解析的整体 HTML 结构(<html><body></body></html> 等)这对XML/HTML 解析？

以下是一些可能的示例，主要是标准 HTML，缺少段落:

This is a section of a blog post. It has <a href="#">links</a> and lists and stuff. Weee....
<br>
<br>
Here's a list
<br/>
<br />
<ul><li>Item 1</li><li>Item 2</li><ul>
And another paragraph here...
<br>
<br/>
Etc.

Word HTML 看起来像这样 - http://www.timeatlas.com/mos/images/stories/word_html_tags.png

最佳答案

HTML::Parser ？

关于html - 如何解析和规范化来自不同 HTML 生成器的 HTML？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/982203/

上一篇：html - 为什么 DIV 标签在 IE8 和 Firefox 中呈现不同？

下一篇：php - 在 PHP 中加密部分 HTML 并在 JavaScript 中解密

相关文章：

php - 从mysql查询结果中填写表单的字段

javascript - CSS:水平滚动菜单的过渡不平滑

python - Perl 的反引号在 Python 中的等价物是什么？

正则表达式帮助匹配

linux - CTRL+C 和 Perl 的 system() 函数 - 脚本不会被中断

javascript - javascript 函数调用是否在整个脚本解析完成之前运行？

python映射字符串拆分列表

html - 垂直对齐 float 图像右侧的文本，图像大小可变，响应式

php - 用于 php 的独立语法和解析器

javascript - 如何清除javascript中div的文本内容？