perl - 如何确定字符串的字符集?

标签 perl utf-8 character-encoding

我有几个不同语言的文件。我以为它们都是 UTF-8 编码的,但现在我不太确定了。有些字符看起来不错,有些则不然。有没有办法可以打破字符串并尝试识别字符集?也许在空白处拆分然后识别每个单词?最后,有没有一种简单的方法可以将一组字符转换为 UTF-8?

最佳答案

如果您不确定字符集,您基本上只能猜测。 utf8::valid可能会帮助你,但你不能确定。如果您知道如果它不是 unicode,则它必须是特定的字符集(如 Latin-1),那么您很幸运。如果你不知道,你就完蛋了。在任何情况下,除非另有说明,否则您应该始终假设整个文件都在相同的字符集中。如果你不这样做,你就会失去理智。

至于你的问题如何在字符集之间转换:Encode可以为你做那个吗

关于perl - 如何确定字符串的字符集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/319095/

相关文章:

Perl 音频文件持续时间

regex - Perl 正则表达式匹配模式的多个实例并替换

php - 将 mysql 中的数据从 1252 转换并显示为 UTF-8

parsing - 是否有所有国际句号标点符号的字符集?

javascript - 如何在 javascript 文件本身中设置字符集 ="utf-8"

node.js - http.get 和 ISO-8859-1 编码的响应

perl - Perl中的矩阵矩阵

即使使用显式 utf-8 编码,Python 的 UTF-8 编码也会产生奇怪的结果

sql - 从 Oracle 查询中编码 XML 中的字符串

perl - 如何检查另一个不使用 perl -c 的 perl 脚本的语法?