我必须使用 Java 解码包含以下实体的 HTML 字符串:“'”和“&apos”。 我正在使用Apache Commons Lang ,但它不会解码这两个实体,因此,我目前正在执行以下操作,但我正在寻找最快的方法来完成我想要的操作。
import org.apache.commons.lang.StringEscapeUtils;
public class StringUtil {
public static String decodeHTMLString(String s) {
return StringEscapeUtils.unescapeHtml((s.replace("'", "`").replace("'", "'")));
}
}
我搜索了较旧的问题,但似乎没有一个能回答我的问题。
最佳答案
嗯,我想问题的一部分是你的实体之一是双重编码的:“'
”。任何解码器都不会将其转换为撇号。
至于“’
”,显然从技术上讲,它不是 html 实体集的一部分。
关于java - Java中的HTML实体解码: apostrophe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3989083/