Ruby 1.9.x 用字符串中的特定清理字符替换字符集

标签 ruby utf-8 transliteration

我正在寻找一种以简洁高效的方式在 Ruby 中执行以下 PHP 代码的方法:

$normalizeChars = array('Š'=>'S', 'š'=>'s', 'Ð'=>'Dj','Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A',
        'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I',
        'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U',
        'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss','à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a',
        'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i',
        'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u',
        'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f');
$cleanGenre = strtr($this->entryArray['genre'], $normalizeChars);

这里的strtr() 函数会将数组中左边的字符替换为右边的字符。清理工作非常方便。但我似乎无法在 Ruby 中找到任何类似的提示,也就是说,一种指定要替换一个数组中的所有字符的方法,而不是为每个字符使用冗长的条件。

请注意 tr 不起作用,因为您不能用两个字母替换一个字母 (D => Dj)。另外,它给我一个 InvalidByteSequenceError: "\xC5"on US-ASCII 这一行:

    entry["genre"].tr('ŠšŽž', 'SsZz')

谢谢。

最佳答案

在 Ruby 1.9.3 中,您可以将 :fallback 选项与 encode 一起使用:

"ŠšŽžÐ".encode('us-ascii', :fallback => { [your character table here] })
=> "SsZzDj"

也可以使用 gsub 来实现,因为它在 1.9.x 中接受一个转换表作为散列参数:

"ŠšŽžÐ".gsub(/[ŠšŽžÐ]/, [your character table here])
=> "SsZzDj"

或者更好(@steenslag):

character_table = [your table here]
regexp_keys     = Regexp.union(character_table.keys) 
"ŠšŽžÐ".gsub(regexp_keys, character_table)
=> "SsZzDj"

这种字符转换称为transliteration ,如果您想通过谷歌搜索更多解决方案(有许多支持音译的 Ruby 库,但我测试过的库都没有完全支持您的字符集),这很好。

关于Ruby 1.9.x 用字符串中的特定清理字符替换字符集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14810489/

相关文章:

perl - 使用 unicode 字符创建文件名

string - 如何使用 utf8 将 []rune 编码为 []byte

javascript - Javascript 中正则表达式的 UTF-8 支持

r - 在 R 中将重音符号转换为 ASCII

ruby-on-rails - 如何在 ruby​​ 中合并两个数组对象?

ruby - 如何在 eventmachine 中捕获异常

ruby - apn_on_rails 多个应用程序出错

ruby - ruby 音译

javascript - 我想在一个文本框中输入英语,并希望将阿拉伯语文本转换为另一种文本

ruby - 如何计算等待互斥量的线程数?