我正在处理一个医疗数据集,其中包含许多具有离散输出的变量。例如:麻醉类型、感染部位、糖尿病是/否。为了解决这个问题,我刚刚将它们转换为带有 1 和 0 的多个列,然后删除一个以确保它们之间没有直接相关性,但我想知道是否有更有效的方法来做到这一点
最佳答案
这取决于转换的目的。如果序数表示与类别的逻辑不对应,则将类别转换为数字标签可能没有意义。在这种情况下,如果(正如我从您的帖子中推测的那样)目的是使用生成的变量作为某种回归模型的输入,那么您采用的“one-hot”编码方法是最好的方法。您可以使用 pandas.get_dummies
实现您想要做的事情。
关于python - 具有许多离散特征的机器学习数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46439814/