我在 Python 中有一个 Unicode 字符串,我想删除所有重音符号(变音符号)。
我在网上找到了一种优雅的方法(在 Java 中):
- 将 Unicode 字符串转换为其长规范化形式(字母和变音符号使用单独的字符)
- 删除所有 Unicode 类型为“diacritic”的字符。
我是否需要安装诸如 pyICU 之类的库,或者仅使用 Python 标准库是否可行?那么 python 3 呢?
重要说明:我想避免使用从重音字符到非重音字符的显式映射的代码。
最佳答案
Unidecode是这个的正确答案。它将任何 unicode 字符串音译为最接近的 ascii 文本表示形式。
例子:
>>> from unidecode import unidecode
>>> unidecode('kožušček')
'kozuscek'
>>> unidecode('北亰')
'Bei Jing '
>>> unidecode('François')
'Francois'
关于python - 在 Python unicode 字符串中删除重音符号(规范化)的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11976720/