r - 导入 "special"个字符的 .csv 文件

标签 r excel encoding

我正在尝试将 .csv 文件读入 R。.csv 文件是在 Excel 中创建的,它包含“长”破折号,这是 Excel“自动更正”序列空格-破折号-空格的结果。包含这些“长”破折号的示例条目:

US – California – LA
US – Washington – Seattle



我尝试了不同的编码,包括以下三个选项:
x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")

但是,长破折号要么显示为 �(第一个和第二个选项),要么显示为 <U+0096> (第三个选项)。

我意识到我可以以不同的格式存储文件或使用不同的软件(Excel to CSV with UTF8 encoding),但这不是重点。

有没有人弄清楚 R 中的哪种编码选项在这种情况下有效?

最佳答案

如果您使用的是 RStudio,请使用导入数据集。

  • 使用标题:否
  • 分隔符空格
  • 小数点
  • 引用 双引号
  • 取消选中字符串作为因子

  • 加载文档后,您只需删除现在显示为“?”的列您可以看到这是第 2 列和第 4 列。如果您有一个数据框 mydf,那么您将像这样删除第二列。
    mydf_new<-mydf[-2]
    您可以对另一列(现在是第 3 列)执行相同的操作。

    关于r - 导入 "special"个字符的 .csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33264688/

    相关文章:

    r - 如何在 ggplot2 中为不同的图层使用不同的调色板?

    r - 计算具有不规则间隔时间序列的时间间隔的滚动函数

    r - ggplot2 用颜色非线性调整比例

    excel - 创建 Excel 层次结构

    vba - 写长注释文本

    Excel VBA 通过连续单击单元格/文本按多个条件排序

    ajax - Chrome Ajax 响应中的 UTF-8 编码出错

    R:自定义散点图

    encoding - liquibase 破坏 UTF-8 变更集

    xml - 如何在 perl 中编辑 XML 文件的内容?