character-encoding - 如何解码乱码编码: Special Character Encoding

标签 character-encoding non-ascii-characters scramble

我有 CSV 格式的数据,这些数据在字符编码方面被严重打乱,可能在不同的软件应用程序(LibreOffice Calc、Microsoft、Excel、Google Refine、自定义 PHP/MySQL 软件;在 Windows XP、Windows 7 上)之间来回传输和来自世界不同地区的 GNU/Linux 机器……)。似乎在这个过程中的某个地方,非 ASCII 字符变得严重困惑,我不确定如何解扰它们或检测模式。手动执行此操作将涉及几千条记录...

这是一个例子。对于“Trois-Rivières”,当我在 Python 中打开 CSV 文件的这一部分时,它显示:

Trois-Rivi\xc3\x83\xc2\x85\xc3\x82\xc2\xa0res

问题:我可以通过什么过程逆转

\xc3\x83\xc2\x85\xc3\x82\xc2\xa0

回来

è

即我怎样才能解读这个?首先,这怎么会变得困惑?我该如何对这个错误进行逆向工程?

最佳答案

您可以查看以下提供的解决方案:Double-decoding unicode in python

另一个更简单的暴力解决方案是使用正则表达式 (((\\\x[a-c0-9]{2}){8})) 在一小部分乱序字符之间创建一个映射表 搜索您的输入文件。对于单一来源的文件,法语应该少于 32 个,德语应该少于 10 个。然后您可以使用这个小映射表运行“查找和替换”。

关于character-encoding - 如何解码乱码编码: Special Character Encoding,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8706107/

相关文章:

python - 在 Python 中查找箭头键的值 : Why are they triples?

PHP - 用重音符号解析 xml

ruby - 使用 Ruby 使用简单的 hashmap 替换数字数据

c# - 概率。关于希伯来语编码

rest - Jersey 文件名编码

Python编码/解码问题

string - 如何打乱字符串中的字符?

encryption - SAS 中的数据屏蔽 : Scrambling Sensitive observations at character level

javascript - 将jquery文本替换为TM字符实体,用jquery

PHP DOMDocument nodeValue 返回不同的编码