r - 导入 "special"个字符的 .csv 文件

我正在尝试将 .csv 文件读入 R。.csv 文件是在 Excel 中创建的，它包含“长”破折号，这是 Excel“自动更正”序列空格-破折号-空格的结果。包含这些“长”破折号的示例条目:

US – California – LA
US – Washington – Seattle

我尝试了不同的编码，包括以下三个选项:

x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")

但是，长破折号要么显示为 �(第一个和第二个选项)，要么显示为 <U+0096> (第三个选项)。

我意识到我可以以不同的格式存储文件或使用不同的软件(Excel to CSV with UTF8 encoding)，但这不是重点。

有没有人弄清楚 R 中的哪种编码选项在这种情况下有效？

最佳答案

如果您使用的是 RStudio，请使用导入数据集。

使用标题:否

分隔符空格

小数点

引用双引号

取消选中字符串作为因子

加载文档后，您只需删除现在显示为“？”的列您可以看到这是第 2 列和第 4 列。如果您有一个数据框 mydf，那么您将像这样删除第二列。
mydf_new<-mydf[-2]
您可以对另一列(现在是第 3 列)执行相同的操作。

关于r - 导入 "special"个字符的 .csv 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33264688/

上一篇：excel - 用于检查具有复杂条件的空组合框或文本框的 VBA 函数

下一篇：excel - SAP GUI 脚本打开一个 Excel 窗口，我无法停止它

相关文章：

r - 如何在 ggplot2 中为不同的图层使用不同的调色板？

r - 计算具有不规则间隔时间序列的时间间隔的滚动函数

r - ggplot2 用颜色非线性调整比例

excel - 创建 Excel 层次结构

vba - 写长注释文本

Excel VBA 通过连续单击单元格/文本按多个条件排序

ajax - Chrome Ajax 响应中的 UTF-8 编码出错

R:自定义散点图

encoding - liquibase 破坏 UTF-8 变更集

xml - 如何在 perl 中编辑 XML 文件的内容？