我使用 txt 文件,最近发现例如其中一些字符中包含以下字符:
http://pastebin.com/raw.php?i=Bdj6J3f4
这些角色可能是什么?字符编码错误?我只想使用普通的 UTF-8 TXT 文件,但是当我使用:
iconv -t UTF-8 input.txt > output.txt
还是一样。
当我在 gedit 中打开文件时,将它们复制并粘贴到另一个 txt 文件中,然后就没有像 Pastebin 中那样的字符。所以gedit可以解决这个问题,它很好地编码了TXT文件。但是txt文件太多。
为什么会有http://pastebin.com/raw.php?i=Bdj6J3f4 - 就像文本文件中的字符一样?它们可以转换为“普通字符”吗?我看不到例如:“Ò”字符,当我用 vim 打开文件时,只有在我“使用它们”之后(例如:awk 等)
最佳答案
如果您发布文件的实际二进制内容(也许通过使用 od -t x1 的输出),将会有所帮助。 Pastebin 将其返回为 HTML:
“Ò” “A” “埃”
第一行对应于U+00C3 U+0152。最后一行对应于 U+00C3 U+00A9,它是 UTF 格式的字符串“\ux00e9”(“\xc3\xa9”),其中 UTF-8 字节被重新解释为 Latin-1。
关于linux - 编码问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4635648/