r - 关于何时分解 R 中的列的好的经验法则是什么？

标签 r

<分区>

那么在选择对 R 中的列进行因式分解时是否有任何假设？我问这个是因为我有字符列，如果转换为因子，对于诸如 randomForest 之类的东西会有太多级别。将它们保留为字符有什么缺点吗？

最佳答案

对于大多数项目(例如阅读、清洁、操作)，我通常喜欢将我的变量保留为特征而不是因素。我通常只在分析之前将它们转移到因素。就目前而言，我知道明确使用因子变量存储的主要原因是明确控制分析中的基本水平，例如控制带有虚拟变量的线性模型中遗漏的类别。

过去(几年前)，将变量保留为因子的最大优势是节省内存。因子变量或多或少存储为整数向量，与字符向量相比，它占用的空间要少得多，尤其是在有重复元素的情况下。正如@MichaelChirico 在下面向我指出的那样，这种情况已经有一段时间了(大约在 2.8 版左右)。

关于r - 关于何时分解 R 中的列的好的经验法则是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36507061/

相关文章：

r - 为什么重复调用 lapply 后闭包中的变量值会丢失？