如果我有一个字符串
String mine = "Some Name ® plus encoding issue ????? \u0000 something ";
我想保留所有 ASCII 字符和 HTML 实体,但删除任何其他编码。
我试过了
mine.replaceAll("[^\\x00-\\x7F]", "");
但这会删除商标和版权等内容
有没有办法保留 HTML 实体但删除所有其他编码?
最佳答案
您可以使用\\p{ASCII}
属性:
mine = mine.replaceAll("[^\\p{ASCII}]+", "");
或者使用\\P{ASCII}
:
mine = mine.replaceAll("\\P{ASCII}+", "");
关于Java - 替换所有非 ASCII 但保留 HTML 特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21887896/