html - 如何解析和规范化来自不同 HTML 生成器的 HTML?

标签 html perl parsing

这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段,并用 InDesign 标签重新标记它们。

Blogger 并未对其任何帖子的 HTML 进行标准化,并且可以使用 Word、Windows Live Writer、 native Blogger 界面或文本编辑器编写帖子,从而产生大量不同形式的 HTML。有些帖子不标记段落,只使用双 <br> s 在段落之间——其他人使用实际的 <p>标签。

解析这种不标准的标签集合的最佳方法是什么?

此外,每个帖子都不是一个完整的 HTML 文件——只是插入到模板中的片段——这意味着没有要解析的整体 HTML 结构(<html><body></body></html> 等)这对XML/HTML 解析?

以下是一些可能的示例,主要是标准 HTML,缺少段落:

This is a section of a blog post. It has <a href="#">links</a> and lists and stuff. Weee....
<br>
<br>
Here's a list
<br/>
<br />
<ul><li>Item 1</li><li>Item 2</li><ul>
And another paragraph here...
<br>
<br/>
Etc.

Word HTML 看起来像这样 - http://www.timeatlas.com/mos/images/stories/word_html_tags.png

最佳答案

关于html - 如何解析和规范化来自不同 HTML 生成器的 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/982203/

相关文章:

php - 从mysql查询结果中填写表单的字段

javascript - CSS:水平滚动菜单的过渡不平滑

python - Perl 的反引号在 Python 中的等价物是什么?

正则表达式帮助匹配

linux - CTRL+C 和 Perl 的 system() 函数 - 脚本不会被中断

javascript - javascript 函数调用是否在整个脚本解析完成之前运行?

python映射字符串拆分列表

html - 垂直对齐 float 图像右侧的文本,图像大小可变,响应式

php - 用于 php 的独立语法和解析器

javascript - 如何清除javascript中div的文本内容?