java - 如何在java中解析准html文本?

标签 java parsing

类 html 文本,看起来像: Simple<br> text <b>simple</b> text simple <BR><BR>text simple text , 我想解析它并创建 dom document .但问题在于未关闭的标签,当我尝试这样做时:

DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);

发生错误:org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag

我不想全部替换 <br>通过 <br></br> ,任何解决方案或建议?

最佳答案

使用jsoup并享受易用性。

关于java - 如何在java中解析准html文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17988846/

相关文章:

parsing - 标识符标记关键字antlr解析器

java - OutOfMemoryError : Java heap space: Trying to convert a ~5. 700万条记录数据集

python - 为什么在我拆分一些 HTML 源代码时会出现 b'(有时是 b' ')[Python]

java - 已处理的 JFrame 仍从 Window.getWindows() 返回

java - 在 Java 中,您可以将相同的异常处理逻辑合并到一处吗?

javascript - Haiku Generator - 如何运行这个脚本?

Python将文本文件解析为嵌套字典

C# 单元测试解析器

java - 使用 Tomcat 将 Java 应用程序连接到数据库

java - Android 在某些部分显示文本语言错误