python - 如何将结合低频类别/值的 python 代码转换为可应用于任何 pandas 数据框列的函数?

标签 python pandas data-science

为此solution 有没有一种简单的方法可以在函数中定义此代码,以便我可以将其应用于任何数据框列。

最佳答案

解决方案应该使用 Series.value_counts 中的 normalize=True 进行简化:

def replace_thresh(df, col, thresh, new_val):
    s = df[col].value_counts(normalize=True).mul(100)
    df[col] = np.where(df[col].isin(s.index[s < thresh]), new_val, df[col])
    return df

df = replace_thresh(df, 'col', 1, 'Other')

关于python - 如何将结合低频类别/值的 python 代码转换为可应用于任何 pandas 数据框列的函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60034119/

相关文章:

python - 使用 pandas 找出一组的垃圾箱百分比

python - 映射 - 特征重要性与标签分类

python - TensorFlow 对象检测 API 评估训练性能

python - 3D numpy 数组的每个元素的高效一维线性回归

python - 线程中的 Popen.subprocess

python - 在 Pandas 数据框中分隔 'networks'

python - 按列表顺序将两个数据框列与列表合并

python - Django CBV - 如何避免为每个 View 重复 get_context_data 以获得自定义标题?

python - 如何在巨大的数据集中查找和转换 pandas 数据框中的缺失值?

python-3.x - sklearn StandardScaler,不允许直接变换,我们需要 fit_transform