我想用 Java 解析 HTML 文本。
我尝试使用 javax.swing.text.html.HTMLEditorKit 解析 HTML 数据。它帮助我从 HTML 中获取数据。但是我有一个 HTML 数据,比如 -
<span class="TitleServiceChange" >Service Change</span>
<span class="DateStyle">
&nbsp;Posted:&nbsp;12/16/2012&nbsp; 8:00PM
</span><br/><br/>
<P>
用 '<' 和 '>' 代替 '<' 和 '>'
解析上述文本时出现错误 -
Parsing error: start.missing body ? ? at
请建议我解决我的问题。 提前致谢。
最佳答案
要取消转义包含在字符串中的全部转义字符,您可以使用 Apache Commons Lang实用程序库。
具体来说,使用 StringEscapeUtils类,您可以在其中找到 unescapeHtml4
方法等。
关于java - 在 Java 中解析 HTML 数据,包括 < 和 > 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13914010/