我有一个带有 HTML
的字符串编码如下:
Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
我想转换这个String
至Unicode
。
预期输出:
Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
我通过 Convert Decimal NCRs Code into UTF-8 in java (JSP) 找到了解决方案但它仅适用于格式以 &#
开头的所有字符的字符串。 .
以 &xxxx
开头的字符,使用页面 HTML encoding of foreign language characters我得到的编码是 html 编码,但我的输入字符串是转换 HTML 实体(命名)和 HTML 实体(十进制)的组合。
有人有什么建议吗? 如果我们能够在不添加任何额外库的情况下实现它那就最好了。
[更新]我通过使用 Apache library 解决了我的问题:
String encodeString = "Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.";
String unEncodeString = StringEscapeUtils.unescapeHtml4(encodeString);
System.out.println("OUTPUT : " + unEncodeString);
=====> OUTPUT : Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
最佳答案
使用 Apache Commons StringEscapeUtils.unescapeHtml(string)
来实现此目的。
关于java - java中如何将html编码的字符串转换为Unicode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27791430/