从 1600 万个字符串变量的向量中删除德语(或法语)口音的最佳方法是什么。
例如,“干燥综合征”变成“干燥综合征”
将单个字符转换为单个字符优于音译,例如
ä => ae ö => oe ü => ue。
例如,使用正则表达式将是一种选择,但有没有更好的东西(为此使用 R 包)?gsub('ü','u',gsub('ö','o',"Sjögren's syndrome ( über) "))
有针对非 R 平台的 SO 解决方案,但对于 R 来说不是一个好的解决方案。
最佳答案
使用 iconv
使用音译转换为 ASCII(如果支持):
iconv(c("über","Sjögren's"),to="ASCII//TRANSLIT")
[1] "uber" "Sjogren's"
关于r - 将重音字符转换为 ascii 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13610319/