java - java中如何将html编码的字符串转换为Unicode

我有一个带有 HTML 的字符串编码如下:

&ETH;&#7897;t nhi&ecirc;n, &#7903; g&#7889;c T&acirc;y B&#7855;c v&#259;ng v&#7859;ng c&oacute; ti&#7871;ng v&oacute; ng&#7921;a d&#7891;n d&#7853;p.

我想转换这个String至Unicode 。预期输出:

Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.

我通过 Convert Decimal NCRs Code into UTF-8 in java (JSP) 找到了解决方案但它仅适用于格式以 &# 开头的所有字符的字符串。 .

以 &xxxx 开头的字符，使用页面 HTML encoding of foreign language characters我得到的编码是 html 编码，但我的输入字符串是转换 HTML 实体(命名)和 HTML 实体(十进制)的组合。

有人有什么建议吗？如果我们能够在不添加任何额外库的情况下实现它那就最好了。

[更新]我通过使用 Apache library 解决了我的问题:

String encodeString = "&ETH;&#7897;t nhi&ecirc;n, &#7903; g&#7889;c T&acirc;y B&#7855;c v&#259;ng v&#7859;ng c&oacute; ti&#7871;ng v&oacute; ng&#7921;a d&#7891;n d&#7853;p.";
    String unEncodeString = StringEscapeUtils.unescapeHtml4(encodeString);
    System.out.println("OUTPUT : " + unEncodeString);

=====> OUTPUT : Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.

最佳答案

使用 Apache Commons StringEscapeUtils.unescapeHtml(string) 来实现此目的。

引用:Java: How to unescape HTML character entities in Java?

关于java - java中如何将html编码的字符串转换为Unicode，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27791430/

java - java中如何将html编码的字符串转换为Unicode

上一篇：java - 在签名的 jar 文件上使用 pack200

下一篇：java - 添加第二个 API 时 GoogleApiClient 崩溃