我有一个包含名称列表的 UTF-8 编码文本文件。我正在尝试为辅音和元音制作单独的文件,我使用简单的 tr -d list-of-vowels
进行管理,但由于某种原因,生成的文件用 xA7 替换了 ç 并且它进一步得到当我通过 sed 脚本运行文件时被 § 替换(并且在这个过程中弄乱了脚本因此出现了问题)。文件中的所有标志(为了便于分析,我已经全部转为小写):
bcdfghjklmnpqrstvwxzçðñ àáâãæèéêëìíîïòóôõøúüýaeiouyäåö '*,-./`#
出于某种原因,只有 ç 会导致问题。 sed
我用来按年份计算文件中每个字符的数量的是 sed -E -e 's/"([^"]*)","([ ^"]*)",.*/\L\2,\1/' -e 's/^([^,]+),(.)(.+)$/\1,\2\n\1,\3/; ; D'
但我不认为它应该有问题。
正在处理的文件是格式为 .csv 的文件:
"hanna","1919","2"
"hanna","1919","2"
"heidi","1919","2"
"heidi","1919","2"
"anja","1938","2"
"anja","1938","2"
"eila","1947","2"
"eila","1947","2"
先按年份排序,再按字母顺序排序。
关于为什么 tr
这样做以及如何让它停止的任何线索?我什至尝试运行 sed -i "s/\ァ/\ç/g"
但实际上什么也没做。然而,例如。 cat
解析有问题的字符。
最佳答案
关于linux - tr 改变文件编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49181977/