python - 从 Python 中的字符串中删除奇怪的隐藏字符

标签 python string pandas csv encoding

我有一个 csv 文件,其中有一列包含字符串列表。这些字符串似乎有隐藏字符,我只有在从每个字符串中删除某些字符时才能看到这些字符。

#string copied from column
print(len('kommunikationsfähigkeit'))
#same string entered by me 
print(len('kommunikationsfähigkeit'))

24
23

当删除复制字符串的部分列时,我得到这个:

''̈igkeit'

有人知道那里发生了什么吗?我尝试使用 encoding='utf8' 读取 csv,但它没有任何改变。 我显然想摆脱那些角色。

最佳答案

两者都是 UTF-8,但呈现相同视觉字符的方式不同。第一个字符串包含 U+00E4 — LATIN SMALL LETTER A WITH DIAERESIS .您的第二个字符串包含“a”,后跟 U+0308 — COMBINING DIAERESIS ( ̈ ),组合起来呈现为“ä”。

您可以使用 unicodedata 自行检查字符串:

import unicodedata

for c in string:
    print(unicodedata.name(c))

以上两种都是表示“ä”的有效方式,并且在适当的 Unicode 规范化下它们被认为是等价的。您可以使用 unicodedata.normalize 来标准化不同的表示。例如,您可以将两个字符串都转换为标准形式 C(尽管第一个字符串恰好在 NFC 中):

a = 'kommunikationsfähigkeit'
b = 'kommunikationsfähigkeit'
print(f'len(a) = {len(a)}')
# len(a) = 23
print(f'len(b) = {len(b)}')
# len(b) = 24
print(f'a == b: {a == b}')
# a == b: False

norm_a = unicodedata.normalize('NFC', a)
norm_b = unicodedata.normalize('NFC', b)
print(f'len(norm_a) = {len(norm_a)}')
# len(norm_a) = 23
print(f'len(norm_b) = {len(norm_b)}')
# len(norm_b) = 23
print(f'norm_a == norm_b: {norm_a == norm_b}')
# norm_a == norm_b: True

关于python - 从 Python 中的字符串中删除奇怪的隐藏字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59784846/

相关文章:

python - 查找定义内置 Python 函数名称的代码部分

c - 如何将输入添加到数组并在用户输入字符串 'stop' 时停止?

java - java 是否使用 new String(...) 创建动态字符串/命令行参数/文件 IO

python - 如何均匀地间隔数据框中的日期数据?

python - 如何用 pandas 融化多索引中的第一级列

Python:如何将我的代码输出导出到它自己的文本文件?

python - Pandas :取任何不是 NaN 的列

utf-8 字符串的 Python3 .title()

php - 类 stdClass 的对象无法转换为字符串错误

python - 我如何使用 sklearn 按组运行多个单变量回归?