我想将文件拆分为单词列表,使用 tr
非常简单。然而,事实证明是在特殊的丹麦语字符处拆分的单词,例如
echo København Helsingør|tr -c "[:alpha:]""\n"
K�
本港
海辛
r
显然,“ø”不是 [:alpha:]
集的成员。我在 macOS 和 Linux 上得到了相同的结果。我试过在命令前加上
LC_TYPE=da_DK.UTF-8 echo København Helsingør|tr -c "[:alpha:]""\n"
但这给出了相同的结果。
最佳答案
已解决。这是来自自制软件 (/usr/local/opt/coreutils/libexec/gnubin/tr
) 的 GNU tr
的问题,这是我的默认设置,并且似乎忽略了任何设置语言环境。我使用 native macOS 的 /usr/bin/tr
得到了正确的单词拆分。
关于linux - 翻译 : tr does not recognise scandinavian character set,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42496548/