java - 如何在java中解析准html文本？

标签 java parsing

类 html 文本，看起来像: Simple text simple text simple text simple text , 我想解析它并创建 dom document .但问题在于未关闭的标签，当我尝试这样做时:

DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);

发生错误:org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag

我不想全部替换  通过   ，任何解决方案或建议？

最佳答案

使用jsoup并享受易用性。

关于java - 如何在java中解析准html文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17988846/

上一篇：java - Utgard - 访问被拒绝

下一篇：java - 从 JAX-RS 中的 JSON 请求获取简单的 JSON 参数

相关文章：

parsing - 标识符标记关键字antlr解析器

java - OutOfMemoryError : Java heap space: Trying to convert a ~5. 700万条记录数据集

python - 为什么在我拆分一些 HTML 源代码时会出现 b'(有时是 b' ')[Python]

java - 已处理的 JFrame 仍从 Window.getWindows() 返回

java - 在 Java 中，您可以将相同的异常处理逻辑合并到一处吗？

javascript - Haiku Generator - 如何运行这个脚本？

Python将文本文件解析为嵌套字典

C# 单元测试解析器

java - 使用 Tomcat 将 Java 应用程序连接到数据库

java - Android 在某些部分显示文本语言错误