java - 在 Java 中解析 HTML 数据,包括 &lt 和 &gt 标签?

标签 java html-parsing htmleditorkit

我想用 Java 解析 HTML 文本。

我尝试使用 javax.swing.text.html.HTMLEditorKit 解析 HTML 数据。它帮助我从 HTML 中获取数据。但是我有一个 HTML 数据,比如 -

<span class="TitleServiceChange" >Service Change</span>
                    <span class="DateStyle">
                     Posted: 12/16/2012  8:00PM
                    </span><br/><br/>
                  <P>

'<''>' 代替 '<''>'

解析上述文本时出现错误 -

Parsing error: start.missing body ? ? at

请建议我解决我的问题。 提前致谢。

最佳答案

要取消转义包含在字符串中的全部转义字符,您可以使用 Apache Commons Lang实用程序库。

具体来说,使用 StringEscapeUtils类,您可以在其中找到 unescapeHtml4 方法等。

关于java - 在 Java 中解析 HTML 数据,包括 &lt 和 &gt 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13914010/

相关文章:

java - GWT : Using "UIObject" in another widget's UI. xml 文件

python - 使用 BeautifulSoup 提取包含字符串的表

python - 美汤问题

java - 我在哪里可以找到一个很好的 HTMLEditorKit 教程/引用,它实际上解释了如何编辑 HTML 文档?

java - 了解Java父类(super class)和子类构造函数和方法之间的关系

java - 连接后在 SQL 中打印新行

java - 放心。如何检查是否返回空数组?

python - 过滤掉 Python Mechanize 网络爬虫的图像/文件链接

html - 删除 HTML 使用 Java 删除对齐方式

java - 使用 HTMLEditorKit 工作