python - Dataframe 中的 Loop、iloc 和 loc?

标签 python python-3.x pandas dataframe

大家好,我是 Python 新手,现在我开始使用一些库,例如 Pandas 和 Numpy。最近,老师给我做这个练习,我不知道该用什么方法。详情如下:

df1 = pd.DataFrame({'col1': [0, 1, 1, 0, 3],
               'col2': [23, 4, 1, 1, 3], 
               'col3': [0, 5, 2, 1, 1],
               'col4': [1, 2, 6, 4, 0],
               'col5': [4, 15, 0, 2, 5],
               'loc': [1, 4, 2, 3, 2]}) 

1) col1 - col5: 随机数

2) loc:值的位置。

3) 计算'val'返回每一列的值,位置在'loc'中给出。

示例:在第 0 行中,loc = 1,val = 23。在第 1 行中,loc = 4,val = 15,等等

结果应该是这样的:

df = pd.DataFrame({'col1': [0, 1, 1, 0, 3],
               'col2': [23, 4, 1, 1, 3], 
               'col3': [0, 5, 2, 1, 1],
               'col4': [1, 2, 6, 4, 0],
               'col5': [4, 15, 0, 2, 5],
               'loc': [1, 4, 2, 3, 2],
                'val': [23, 15, 2, 4, 1]})

我试过 iloc 和 loc 之类的东西来计算“val”。但是,当数据框变大时,我不能再使用这种方法了。有没有更快的方法来计算'val'?我需要使用循环来计算'val'吗?

df1 = df['loc']
df.iloc[0,df1[0]]
df.iloc[1,df1[1]]
df.iloc[2,df1[2]]

PS:抱歉我的英语不好,但我真的不知道如何用英语解释这个练习,我只是尽力而为:(

最佳答案

使用 numpy 索引,尤其是在性能很重要的情况下:

df1['value'] = df1.values[np.arange(len(df1)), df1['loc']]
print (df1)
   col1  col2  col3  col4  col5  loc  value
0     0    23     0     1     4    1     23
1     1     4     5     2    15    4     15
2     1     1     2     6     0    2      2
3     0     1     1     4     2    3      4
4     3     3     1     0     5    2      1

性能:

#5000 rows
df1 = pd.concat([df1] * 1000, ignore_index=True)
In [73]: %timeit df1['value'] = df1.values[np.arange(len(df1)), df1['loc']]
266 µs ± 8.06 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [74]: %%timeit
    ...: result = []
    ...: for index, row in df1['loc'].iteritems():
    ...:      result.append(df1.iat[index, row])
    ...: df1['val'] = result
    ...: 
64 ms ± 753 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [75]: %timeit df1['value'] = df1.apply(lambda x: x.iloc[x['loc']], axis = 1)
243 ms ± 11.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

关于python - Dataframe 中的 Loop、iloc 和 loc?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53956658/

相关文章:

Python 字典和多个 dict[]

python - pyinstaller 无法使用 tkinter

python - 如何获取json文件中特定较低级别 key 的最高值的顶级 key ?

python - 如何重构返回闭包的方法以使其可 pickle ?

python - [] = ()、() = () 和 {} = () 'assignments'

python - 二维 ndarray 的 Numpy fromfile 的填充顺序是什么?

python - 我在哪里可以找到在 python 中使用的十六进制颜色代码列表?

python - 在带有 groupby 的时间序列列上使用 Pandas .diff()

python - 在 Pandas 中按类别比较

python - vim 和 wc 给出不同的行数