我正在研究一个分类问题,使用 Python 中的逻辑回归模型 (scikit learn)。我的特点之一是性别。在原始数据集中,该变量是一个字符串(male、female)。我使用 pandas 的 get_dummies 方法,它创建了 2 列,值分别为 0,1。每类一个。
我的问题是,我应该使用 2 个不同的列,还是像male (0,1) 这样的单个列?
最佳答案
我个人喜欢对具有 n
类别的字段使用 n - 1
列。当使用get_dummies
时方法这意味着将 drop_first
设置为 True。
至于为什么我喜欢这样做;我的一位前任讲师在对 one hot encoding vs dummy encoding in sckikit learn 的回答中对此进行了很好的解释。 。基本上可以归结为消除共线性。
关于python - 具有 2 个类别的虚拟变量。它应该在单列还是多列中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46836848/