我正在尝试使用 Jsoup 解析 XHTML 文件,并删除一些标签上的结束斜杠。即:
<link rel="stylesheet" type="text/css" href="/css/assessment.css" />
变成了
<link rel="stylesheet" type="text/css" href="/css/assessment.css">
我在这里尝试了一些其他答案:
Jsoup: How to convert a String containing HTML to a XHTML document? https://github.com/jhy/jsoup/issues/511 jsoup: differnt result after updating from 1.7.3 to 1.8.1, how to avoid this?
我最近的尝试是:
File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
Document doc = Jsoup.parse(input, "UTF-8", "");
doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
doc.outputSettings().charset("UTF-8")
我还尝试更改文档类型:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
但问题仍然存在。如何在不去掉尾部斜杠的情况下解析 HTML?
最佳答案
这有效:
File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
Document doc = Jsoup.parse(input, "UTF-8", "");
doc.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
doc.outputSettings().charset("UTF-8");
关于java - 使用 Jsoup 1.11 解析 XHTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51182458/