r - read.table() 中的一个字节分隔符参数

我正在将不可预测的字符集字符串放入表中，并具有预期的列数。我在选择合适的分离器时遇到了麻烦。

例如，示例表可能如下所示:

文件名:foo.txt

分隔符:“\u00AA”

ROW1，COL1:foo

行1，列2:b，ar

ROW1，COL3:fo;obar

行 1，列 4:bo\tt

然后。

在 R 中我会给出

read.table('foo.txt', sep="\u00AA")

并得到

invalid 'sep' value: must be one byte

我应该使用什么分隔符来避免与不可预测的字符串发生冲突？ Unicode 的接受上限为\u007F，但 R 将任何更高的值解释为多字节。为什么？

最佳答案

想通了。谢谢你的灵感。

关键是设置comment.char=""和quote=""

例如，

read.table('foo', sep="\t", quote="", comment.char="")

返回正确的 data.frame。

关于r - read.table() 中的一个字节分隔符参数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17223844/

相关文章：

r - 使用 R 中的匹配子类计算两个国家之间的相关性