Python - 将德语变音符号音译为变音符号

标签 python unicode transliteration

我有一个 unicode 文件路径列表,我需要用英语变音符号替换其中的所有变音符号。例如,我会将 ü 与 ue,ä 与 ae 等。我已经定义了变音符号(键)及其变音符号(值)的字典。所以我需要将每个键与每个文件路径以及找到键的位置进行比较,将其替换为值。这看起来很简单,但我无法让它工作。有没有人有任何想法?非常感谢任何反馈!

到目前为止的代码:

# -*- coding: utf-8 -*-

import os

def GetFilepaths(directory):
    """
    This function will generate all file names a directory tree using os.walk.
    It returns a list of file paths.
    """
    file_paths = []
    for root, directories, files in os.walk(directory):
        for filename in files:
            filepath = os.path.join(root, filename)
            file_paths.append(filepath)
    return file_paths

# dictionary of umlaut unicode representations (keys) and their replacements (values)
umlautDictionary = {u'Ä': 'Ae',
                    u'Ö': 'Oe',
                    u'Ü': 'Ue',
                    u'ä': 'ae',
                    u'ö': 'oe',
                    u'ü': 'ue'
                    }

# get file paths in root directory and subfolders
filePathsList = GetFilepaths(u'C:\\Scripts\\Replace Characters\\Umlauts')
for file in filePathsList:
    for key, value in umlautDictionary.iteritems():
        if key in file:
            file.replace(key, value) # does not work -- umlauts still in file path!
            print file

最佳答案

replace 方法返回一个新字符串,它不会修改原始字符串。

所以你需要

file = file.replace(key, value)

而不仅仅是 file.replace(key, value)


另请注意,您可以使用 the translate method一次完成所有替换,而不是使用 for-loop:

In [20]: umap = {ord(key):unicode(val) for key, val in umlautDictionary.items()}

In [21]: umap
Out[21]: {196: u'Ae', 214: u'Oe', 220: u'Ue', 228: u'ae', 246: u'oe', 252: u'ue'}

In [22]: print(u'ÄÖ'.translate(umap))
AeOe

所以你可以使用

umap = {ord(key):unicode(val) for key, val in umlautDictionary.items()}
for filename in filePathsList:
    filename = filename.translate(umap)
    print(filename)

关于Python - 将德语变音符号音译为变音符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33281430/

相关文章:

python - 如何将等高线图(matplotlib)转换为带标题的 FITS 格式?

php - php 网络应用程序完全符合 utf-8 标准?

ruby - 在 Ruby 中将字符串中的西里尔字母音译成拉丁语?

python - 如何在 Python 中创建 Mixin 工厂?

python - 当未找到子字符串 B 时,正则表达式仅匹配子字符串 A

python - 无法将本地文件夹同步到 gcloud

delphi - 分配给 TStringList 时字符串丢失数据

python - 处理法语文本 Python

java - icu4j音译英语到乌尔都语

javascript - Google Transliteration - 打字时的单词建议