我研究过 jTidy,用于将格式错误/现实世界的 HTML 片段转换为格式良好的 HTML/XHTML。但是,最新版本有一个错误,导致我无法使用它。我正在关注 Jericho,因为它在网上有很多正面评价。
但是,对我来说,如何实现这样的方法并不是很明显:
public String getValidHTML(String messedUpHTML)
例如,如果通过 <div>bar
,它将返回 <div>bar</div>
任何指示都会有帮助。
提前致谢!
最佳答案
Jericho's HTMLSanitiser sample也许是一个好的开始。
但是,请记住,jericho 的关键优势在于它能够解析和操作格式错误的 HTML,同时保留原始的“错误”格式。不过,了解该库如何执行此类任务会很有趣。
关于java - 在 Java 中使用 Jericho HTML 解析器检索格式良好的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2623096/