这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段,并用 InDesign 标签重新标记它们。
Blogger 并未对其任何帖子的 HTML 进行标准化,并且可以使用 Word、Windows Live Writer、 native Blogger 界面或文本编辑器编写帖子,从而产生大量不同形式的 HTML。有些帖子不标记段落,只使用双 <br>
s 在段落之间——其他人使用实际的 <p>
标签。
解析这种不标准的标签集合的最佳方法是什么?
此外,每个帖子都不是一个完整的 HTML 文件——只是插入到模板中的片段——这意味着没有要解析的整体 HTML 结构(<html><body></body></html>
等)这对XML/HTML 解析?
以下是一些可能的示例,主要是标准 HTML,缺少段落:
This is a section of a blog post. It has <a href="#">links</a> and lists and stuff. Weee....
<br>
<br>
Here's a list
<br/>
<br />
<ul><li>Item 1</li><li>Item 2</li><ul>
And another paragraph here...
<br>
<br/>
Etc.
Word HTML 看起来像这样 - http://www.timeatlas.com/mos/images/stories/word_html_tags.png
最佳答案
关于html - 如何解析和规范化来自不同 HTML 生成器的 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/982203/