java - 识别和匹配文件中的非 ASCII 字符

标签 java encoding utf non-ascii-characters

我正在尝试读取分隔文件并解析其内容。与 CSV 不同,分隔符、字符串限定符等不是 ASCII,即。分别为 U0014 和 U00FE。但是,我无法检测到字符串限定符 (FE) 。这是因为角色的值大于128还是其他原因?

这是一个说明核心问题的简单程序。我怎样才能做到这一点?这是一个非常小的测试文件的链接。 https://www.dropbox.com/s/1cilircwc3pq78c/nonascii.dat?dl=0

谢谢

import org.apache.commons.io.FileUtils;
import org.apache.commons.io.LineIterator;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.PrintStream;
import java.io.Reader;

public class CharMatch {
    public static void main(String[] args)
        throws Exception {
    final String pathname = "/home/vinayb/Downloads/nonascii.dat";
    final File file = new File(pathname);
    final String encoding = "UTF-8";
    final PrintStream out = new PrintStream(System.out, true, encoding);
    final Reader r = new BufferedReader(new InputStreamReader(
            new FileInputStream(file), encoding));

    final LineIterator it = FileUtils.lineIterator(file, encoding);
    try {
        //read a line
        final String line = it.nextLine();
        final char[] chars = line.toCharArray();
        for (char c : chars) {
            out.println(c + " , with decimal value: " + Character.getNumericValue(c) + " and hexa value: " + Integer.toHexString(Character.getNumericValue(c)));
        }

        out.println("------------------------------------");
        final String expectedDelimiter = fromUnicode("0014");
        final String expectedStringQualifier = fromUnicode("00FE");
        out.println("##### expected delimiter:" + expectedDelimiter);

        out.println("##### expected string qualifier:" + expectedStringQualifier);
        String[] items = line.split(expectedDelimiter);
        out.println("#### " + items.length + " " + items[0]);

        if (line.contains(expectedDelimiter)) {
            out.println("Found delimiter"); ////=======> can match this
        }

        if (line.contains(expectedStringQualifier)) {
            out.println("Found string qualifier"); //=======> can't match this
        }
    } finally {
        LineIterator.closeQuietly(it);
    }
}

private static String fromUnicode(String codePoint) {
    return "" + (char) Integer.parseInt(codePoint, 16);
}

}

最佳答案

您的文件不是有效的 UTF-8:

$ iconv -f utf-8 *dat >/dev/null; echo $?
iconv: illegal input sequence at position 0
1

但它可以被“读”为 ISO-8859-1:

$ iconv -f iso-8859-1 *dat >/dev/null; echo $?
0

只需将编码更改为该编码即可;但2015年这样的文件格式还是比较奇怪的。你真正应该做的是询问此类文件的来源,与时俱进;)

请注意,由于第一个字节序列无效,默认情况下 Java 会将其替换为 U+FFFD ;它会对无法转换为 char 的每个字节序列执行此操作。即使在这种情况下,为了让 Java 抛出异常,您需要实例化一个 CharsetDecoder(来自 Charset 实例)并指定您想要的 。 onMalformedInput(CodingErrorAction.REPORT)(默认为 CodingErrorAction.REPLACE)。

关于java - 识别和匹配文件中的非 ASCII 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29401221/

相关文章:

java - 在 data/data/packagename/using eclipse android emulator 下找不到数据库文件夹

java - 再次出现Tomcat编码问题

encoding - 如何缩短 Base64 字符串?

java - 如何在java spring中强制文件内容为utf-8?

java - 如何从字符串验证和实例化 Java Locale?

java - 无法从sqlite数据库android中删除行

java - Hamcrest Matcher编译Eclipse和javac的区别

assembly - 我应该如何使用英特尔的文档获取与 x86 中的 `ModeR/M` 指令相对应的 `call dword ptr` 字节?

PHP DOMDocument 日语字符编码问题

php - 无法将 PHP 和 MySQL 中的阿拉伯字母添加到我的数据库的一个表中