Python - 分类的最低方差的箱大小

标签 python pandas feature-engineering

我想将我的特征“年龄”从连续变量更改为年龄范围的分类变量以进行二元分类,如下所示:

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

但是我想以最佳方式拆分它,以便最有效地对数据进行分类。即年龄范围内的类别方差被最小化,同时不会过度拟合。

是否有一个包有一种方法,可以在像这样分割数据时最大限度地减少方差,还是我必须自己编写一个方法?

最佳答案

也许您可以使用sklearn.cluster来执行此操作。

关于Python - 分类的最低方差的箱大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44846574/

相关文章:

Python - 使用字符串列表对字典列表进行特征哈希

machine-learning - 标准化测试集但范围更高

dataframe - 在 knn 插补方法中计算 "distance average"期间替换特定列中的 NaN 值

python - 从邻接表计算邻接矩阵的花式索引

python - 控制 python 导入以减少大小和开销

python - 如何清除 Tkinter ListBox Python

python - 通过 SSH 和 SQLAlchemy 将 Python 连接到 Redshift

python - for循环中matplotlib中的多个图例

python - Pandas 在数据框和系列(列)之间相乘

python - 适用于 numpy 数组和 pandas 数据帧的列切片方法