我正在尝试将 .csv 文件读入 R。.csv 文件是在 Excel 中创建的,它包含“长”破折号,这是 Excel“自动更正”序列空格-破折号-空格的结果。包含这些“长”破折号的示例条目:
US – California – LA
US – Washington – Seattle
我尝试了不同的编码,包括以下三个选项:
x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")
但是,长破折号要么显示为 �(第一个和第二个选项),要么显示为
<U+0096>
(第三个选项)。我意识到我可以以不同的格式存储文件或使用不同的软件(Excel to CSV with UTF8 encoding),但这不是重点。
有没有人弄清楚 R 中的哪种编码选项在这种情况下有效?
最佳答案
如果您使用的是 RStudio,请使用导入数据集。
加载文档后,您只需删除现在显示为“?”的列您可以看到这是第 2 列和第 4 列。如果您有一个数据框 mydf,那么您将像这样删除第二列。
mydf_new<-mydf[-2]
您可以对另一列(现在是第 3 列)执行相同的操作。
关于r - 导入 "special"个字符的 .csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33264688/