python - 使用嵌套 defaultdict 重新分配 pandas 系列值

标签 python pandas mapping transform defaultdict

我正在处理 NFL 数据集,并希望对 df 中的每场比赛进行以下映射:

  • 我正在尝试用每个玩家到该回合冲锋者的距离来填充列 (DistToRusher)。
  • DistToRusher 列当前填充有玩家 ID。
  • 我正在尝试将这些玩家 ID 映射到内部字典键中的 ID,并将其替换为内部字典值。
  • 我有一个defaultdict-of-dictionaries dist_dict,如下所示:
    dist_dict = {play_id1: {player_id1: distance, player_id2: distance ...}, 
                 play_id2: {player_id1: distance, player_id2: distance ...}...}

这是我的代码:

def populate_DistToRusher_column(df):
    for play_id, players_dict in dist_dict.items():
        df[df.PlayId == play_id].replace({'DistToRusher': players_dict}, inplace=True)
    return df

此代码运行速度较慢(20-30 秒),并且不会更改 DistToRusher 列;当我检查 df 时,DistToRusher 仍然包含玩家 ID 号,而不是距离。

这是实际数据的玩具版本:

from collections import defaultdict 
import pandas as pd
df = pd.DataFrame.from_dict({'PlayId': {
  0: 20170907000118, 1: 20170907000118, 2: 20170907000118,
  22: 20170907000139, 23: 20170907000139, 24: 20170907000139},
 'NflId': {0: 496723, 1: 2495116, 2: 2495493,
  22: 496723, 23: 2495116, 24: 2495493},
 'NflIdRusher': {0: 2543773, 1: 2543773, 2: 2543773,
  22: 2543773, 23: 2543773, 24: 2543773},
 'DistToRusher': {0: 496723, 1: 2495116, 2: 2495493,
  22: 496723, 23: 2495116, 24: 2495493}})

dist_dict = {20170907000118: defaultdict(float,
             {496723: 6.480871854928166,
              2495116: 4.593310353111358,
              2495493: 5.44898155621764}),
 20170907000139: defaultdict(float,
             {496723: 8.583355987025117,
              2495116: 5.821151088917024,
              2495493: 6.658686056573021})}

最佳答案

我认为这是正确的,IIUC:

temp = pd.DataFrame(dist_dict)
df['DistToRusher2'] = df.apply(lambda x: temp[x.PlayId][x.NflId], axis=1)

or

df['DistToRusher2'] = df.apply(lambda x: dist_dict[x.PlayId][x.NflId], axis=1)

输出:

            PlayId    NflId  NflIdRusher  DistToRusher  DistToRusher2
0   20170907000118   496723      2543773        496723       6.480872
1   20170907000118  2495116      2543773       2495116       4.593310
2   20170907000118  2495493      2543773       2495493       5.448982
22  20170907000139   496723      2543773        496723       8.583356
23  20170907000139  2495116      2543773       2495116       5.821151
24  20170907000139  2495493      2543773       2495493       6.658686

关于python - 使用嵌套 defaultdict 重新分配 pandas 系列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59231721/

相关文章:

entity-framework - 从 Entity Framework 映射到自定义域模型类?

hibernate - intellij idea生成持久性映射没有外键

python - 如何创建多个数据帧而不从一个数据帧重复?

python - concat + groupby + 应用在 panda dataframe 的多列中

Python Pandas 将列添加到多索引 GroupBy DataFrame

python - 在 Pandas 中如何在移动窗口的基础上计算 'Countif'?

json - 将JSON文件索引到elasticsearch命令/映射错误中

python - Numpy 向量化和算法复杂度

python - 当图形包含多个子图时 matplotlib.widgets.TextBox 交互速度很慢

python - Python 字节正则表达式中的 $ Windows 换行符