java - 使用 Java Normalizer 将口音 ascii 转换为非口音但排除某些符号

标签 java character-encoding non-ascii-characters extended-ascii

我有一组带有重音符号的数据。我想将口音转换为简单的英文字母。我使用以下代码实现了这一点:

import java.text.Normalizer;
import java.util.regex.Pattern;

public String deAccent(String str) {
    String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); 
    Pattern pattern = Pattern.compile("\\p{InCombiningDiacriticalMarks}+");
    return pattern.matcher(nfdNormalizedString).replaceAll("");
}

但是这段代码缺少的是排除字符,我不知道如何从转换中排除某些字符,例如我想从 Düsseldorf 一词中排除字母“ü”所以当我转换时,它不会变成杜塞尔多夫的话。有没有办法将排除列表传递给方法或匹配器而不转换某些重音字符?

最佳答案

不要使用规范化来删除重音符号!

例如,使用您的方法无法识别以下字母:

  • đ

  • ħ

您可能还想将 œ 等连字拆分为单独的字母(即 oe)。

试试这个:

private static final String TAB_00C0 = "" +
        "AAAAAAACEEEEIIII" +
        "DNOOOOO×OUUUÜYTs" + // <-- note an accented letter you wanted 
                             //     and preserved multiplication sign
        "aaaaaaaceeeeiiii" +
        "dnooooo÷ouuuüyty" + // <-- note an accented letter and preserved division sign
        "AaAaAaCcCcCcCcDd" +
        "DdEeEeEeEeEeGgGg" +
        "GgGgHhHhIiIiIiIi" +
        "IiJjJjKkkLlLlLlL" +
        "lLlNnNnNnnNnOoOo" +
        "OoOoRrRrRrSsSsSs" +
        "SsTtTtTtUuUuUuUu" +
        "UuUuWwYyYZzZzZzs";

public static String toPlain(String source) {
    StringBuilder sb = new StringBuilder(source.length());
    for (int i = 0; i < source.length(); i++) {
        char c = source.charAt(i);
        switch (c) {
            case 'ß':
                sb.append("ss");
                break;
            case 'Œ':
                sb.append("OE");
                break;
            case 'œ':
                sb.append("oe");
                break;
            // insert more ligatures you want to support 
            // or other letters you want to convert in a non-standard way here
            // I recommend to take a look at: æ þ ð fl fi
            default:
                if (c >= 0xc0 && c <= 0x17f) {
                    c = TAB_00C0.charAt(c - 0xc0);
                }
                sb.append(c);
        }
    }
    return sb.toString();
}

关于java - 使用 Java Normalizer 将口音 ascii 转换为非口音但排除某些符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22613533/

相关文章:

java - 读取 Java 变量

java - 短按显示上下文菜单而不是长按

php - 如何使用 PHP 修复损坏的编码单词

c# - 如何在 Visual Studio 中使用正确的编码打开阿拉伯文本文件

r - 如何在 R 中打开下载的包含正确重音字符和错误字符的 .csv 文件?

java - 使用某些 Object 属性从 ArrayList 中删除对象

java - Libgdx 多点触控不工作

UTF-8 编码不支持 JSP

c++ - 如何在 C++ 中打印希腊字母 delta

unicode - TortoiseHg 提交提示消息中存在非 ASCII 字符