python - 具有许多离散特征的机器学习数据集

标签 python pandas dataframe machine-learning

我正在处理一个医疗数据集，其中包含许多具有离散输出的变量。例如:麻醉类型、感染部位、糖尿病是/否。为了解决这个问题，我刚刚将它们转换为带有 1 和 0 的多个列，然后删除一个以确保它们之间没有直接相关性，但我想知道是否有更有效的方法来做到这一点

最佳答案

这取决于转换的目的。如果序数表示与类别的逻辑不对应，则将类别转换为数字标签可能没有意义。在这种情况下，如果(正如我从您的帖子中推测的那样)目的是使用生成的变量作为某种回归模型的输入，那么您采用的“one-hot”编码方法是最好的方法。您可以使用 pandas.get_dummies 实现您想要做的事情。

关于python - 具有许多离散特征的机器学习数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46439814/

上一篇：machine-learning - 为什么预习完成后，转移学习会导致错误/丢失从随机重新开始？

下一篇：python - Tensorflow:同一图像的不同激活值

相关文章：

python - 打印分组实例计数后，将 python 数据框中的分组结果展平

python - 使用 python NetCDF 写入 Mysql 时出错

python - 如何用文件名标记记录，从多个 csv 文件导入 pandas 数据框？

python - 如何将周一至周五与周六和周日 Pandas 分开？

python - 处理空数据时如何知道是否删除列或行？

python - 将数据帧拆分为子数据帧并与一行重新组合以表示数据帧

python - 删除 pandas 中具有特定日期的行

python - 绕过 Cloudflare Scrapeshield

python - 条件为负整数

python - 从 matplotlib AxesSubplot 获取值