我有一堆用 utf-8 编码的阿拉伯语、英语、俄语文件。尝试使用 Perl 脚本处理这些文件时,出现此错误:
Malformed UTF-8 character (fatal)
手动检查这些文件的内容,我发现其中有一些奇怪的字符。 现在我正在寻找一种方法来自动从文件中删除这些字符。
还有办法吗?
最佳答案
这个命令:
iconv -f utf-8 -t utf-8 -c file.txt
将清理您的 UTF-8 文件,跳过所有无效字符。
-f is the source format
-t the target format
-c skips any invalid sequence
关于linux - 如何从文本文件中删除非 UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12999651/