python - 如何在 one-hot 编码的 pandas 数据框中找到列的正索引?

标签 python pandas numpy dataframe

我有一个单热编码的 pandas 数据帧,其形式为:

df

      A      B      C      D
ID
#1    2      1      0      1
#2    1      0      0      1
#3    1      1      1      0

df = pd.DataFrame({'ID_1':['#1','#1','#3','#1'], 'ID_2':['#2','#3',np.NaN,'#2'], \
          'ID_3':['#3', np.NaN, np.NaN, np.NaN] }, index=['A','B','C','D'])

我想将其转换为一个新的数据帧,其中索引是列,值对应于旧索引(一种旋转数据帧的方式)。我只是寻找那些在原始数据框中具有正值(对应于计数)的旧索引。实际上,df 应该如下所示:

new_df

      ID_1  ID_2   ID_3
c_id
A     #1     #2     #3      
B     #1     #3            
C     #3      
D     #1     #2

我知道我需要以某种方式旋转数据框,但我无法找到有效的方法来做到这一点。

最佳答案

首先使用 gt 使 df 变为 bool 值,然后使用 mul ,然后我们按 isnull 或 not 对您的列进行排序。

df.gt(0).mul(df.index.values,0).T.replace('',np.nan).apply(lambda x : sorted(x,key=pd.isnull),1)
ID  #1   #2   #3
A   #1   #2   #3
B   #1   #3  NaN
C   #3  NaN  NaN
D   #1   #2  NaN

关于python - 如何在 one-hot 编码的 pandas 数据框中找到列的正索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53908365/

相关文章:

python - 如果特定列中存在重复值,则删除整行

Python - 在字符串列表中搜索子字符串列表,从另一个 Col 返回最大值

python - 对于已排序的 DataFrame,数字索引和列返回最接近传递的给定值的索引值和列名称的元组

python - python audiolab中的蜂鸣声

python - Dask 在上一列的基础上添加新列

python - 是否可以从函数应用程序中的 Azure API 网关调用检索 header ?

python - 使用 numpy 方法修改(keras/tensorflow)张量

python - Django 身份验证覆盖不起作用

python - 基于两个单独列中的日期范围的总和

python - np.where() 内部存在 & 的问题