r - read.table() 中的一个字节分隔符参数

标签 r read.table

我正在将不可预测的字符集字符串放入表中,并具有预期的列数。我在选择合适的分离器时遇到了麻烦。

例如,示例表可能如下所示:

文件名:foo.txt

分隔符:“\u00AA”

ROW1,COL1:foo

行1,列2:b,ar

ROW1,COL3:fo;obar

行 1,列 4:bo\tt

然后。

在 R 中我会给出

read.table('foo.txt', sep="\u00AA")

并得到

invalid 'sep' value: must be one byte

我应该使用什么分隔符来避免与不可预测的字符串发生冲突? Unicode 的接受上限为\u007F,但 R 将任何更高的值解释为多字节。为什么?

最佳答案

想通了。谢谢你的灵感。

关键是设置comment.char=""和quote=""

例如,

read.table('foo', sep="\t", quote="", comment.char="")

返回正确的 data.frame。

关于r - read.table() 中的一个字节分隔符参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17223844/

相关文章:

r - 使用 R 中的匹配子类计算两个国家之间的相关性

python - Rpy2导入外部R文件

read.table 和解析 R 中的 float 据

read.table 函数用于读取 R 中不完整的数据

r - 在 read.table( ) 中传递参数列表

r - list.files 函数中的 for 循环仅生成最后一个 i (R) 的结果

r - "A"= "a"、 "B"= "b"等形式的表达式如何从 LETTERS 和字母自动构建?

xml - 在 R 中解析 xml 文件及其元素

读取带有哈希标记 (#) 分隔符的 txt 文件

python - 在 pandas groupby 之后只过滤少数组元素