java - java中如何将html编码的字符串转换为Unicode

标签 java unicode encoding

我有一个带有 HTML 的字符串编码如下:

Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.

我想转换这个StringUnicode 。 预期输出:

Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.

我通过 Convert Decimal NCRs Code into UTF-8 in java (JSP) 找到了解决方案但它仅适用于格式以 &# 开头的所有字符的字符串。 .

&xxxx 开头的字符,使用页面 HTML encoding of foreign language characters我得到的编码是 html 编码,但我的输入字符串是转换 HTML 实体(命名)和 HTML 实体(十进制)的组合。

有人有什么建议吗? 如果我们能够在不添加任何额外库的情况下实现它那就最好了。

[更新]我通过使用 Apache library 解决了我的问题:

String encodeString = "Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.";
    String unEncodeString = StringEscapeUtils.unescapeHtml4(encodeString);
    System.out.println("OUTPUT : " + unEncodeString);

=====> OUTPUT : Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.

最佳答案

使用 Apache Commons StringEscapeUtils.unescapeHtml(string) 来实现此目的。

引用:Java: How to unescape HTML character entities in Java?

关于java - java中如何将html编码的字符串转换为Unicode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27791430/

相关文章:

php - PHP 中根据 unicode 字符范围将字符串拆分为数组

encoding - 使用静态霍夫曼码进行 DEFLATE 编码

java - JAVA 的 TWAIN/WIA 实现

Java方法调用不明确

java - J 在树莓派上输入

php - 网站上的字符编码有困难

unicode - cscript.exe 不读取 unicode 脚本 (UTF-8)

java - 与项目阅读器一起使用的正确编码是什么

算法:按预期频率将符号压缩成位串?

java - 如何从命令行运行 Google Web Toolkit 应用程序?