java - 如何解析 HTML 中存在的以下字符串并在 Java 中构建 DOM 树?

标签 java html dom

我在 html 中有以下字符串,我想构建 Dom 树并获取名称值对。我如何使用 html 解析器或 xml 解析器或 REGEXP 来做到这一点。任何代码片段都会有用。谢谢



<$$TagStarts>

<==0>Name0</==0><##0>Value0</##0>
<==1>Name1</==1><##1>Value1</##1>
<==2>Name2</==2><##2>Value2</##2>
<==3>Name3</==3><##3>Value3</##3>
<==4>Name4</==4><##4>Value4</##4>
<==5>Name5</==5><##5>Value5</##5>

</$$TagStarts>


最佳答案

假设标签名称仅用于示例......并且您将获得一些有意义的标签名称......

尝试使用以下任意 HTML 解析器...

http://home.ccil.org/~cowan/XML/tagsoup/

http://nekohtml.sourceforge.net/

http://jtidy.sourceforge.net/

他们将为您提供符合 W3 标准的文档对象......在此之后,这只是一个 getElementsByTagNamegetElementById 或使用 XPath 或 Xquery 获取元素的游戏来自 DOM。

否则你可以使用以下...他们有自己的文档对象实现...

http://htmlcleaner.sourceforge.net/ [它还有一些基本的 XPath 支持]

http://jsoup.org/ [它有类似 jquery query API]

添加 检查这个... http://jsoup.org/cookbook/extracting-data/selector-syntax

我会推荐...JSoup 或 Nekohtml

关于java - 如何解析 HTML 中存在的以下字符串并在 Java 中构建 DOM 树?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4459328/

相关文章:

java - 为 JavaScript 编写 JSTL 代码

java - 子字符串 直到第一个字母的字符串

java - 当面板位于滚动 Pane 中时,面板不会滚动到下一个组件

html - 标记重复的表单字段

html - 我想在不使用 Bootstrap 的情况下对齐导航栏中的元素

jquery - 从 jQuery 在页面上插入 "complex"元素的最佳方法是什么

javascript - 用于添加/删除行的 jquery 实时函数

java - 相当于Hibernate中Component的注解

html - 重置 <select> 上的填充

javascript - 如何在nodejs中的ejs文件中显示警报