python - 具有许多离散特征的机器学习数据集

标签 python pandas dataframe machine-learning

我正在处理一个医疗数据集,其中包含许多具有离散输出的变量。例如:麻醉类型、感染部位、糖尿病是/否。为了解决这个问题,我刚刚将它们转换为带有 1 和 0 的多个列,然后删除一个以确保它们之间没有直接相关性,但我想知道是否有更有效的方法来做到这一点

最佳答案

这取决于转换的目的。如果序数表示与类别的逻辑不对应,则将类别转换为数字标签可能没有意义。在这种情况下,如果(正如我从您的帖子中推测的那样)目的是使用生成的变量作为某种回归模型的输入,那么您采用的“one-hot”编码方法是最好的方法。您可以使用 pandas.get_dummies 实现您想要做的事情。

关于python - 具有许多离散特征的机器学习数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46439814/

相关文章:

python - 打印分组实例计数后,将 python 数据框中的分组结果展平

python - 使用 python NetCDF 写入 Mysql 时出错

python - 如何用文件名标记记录,从多个 csv 文件导入 pandas 数据框?

python - 如何将周一至周五与周六和周日 Pandas 分开?

python - 处理空数据时如何知道是否删除列或行?

python - 将数据帧拆分为子数据帧并与一行重新组合以表示数据帧

python - 删除 pandas 中具有特定日期的行

python - 绕过 Cloudflare Scrapeshield

python - 条件为负整数

python - 从 matplotlib AxesSubplot 获取值