我正在尝试学习和理解 pandas LOC 背后的逻辑,但我无法对以下问题做出解释。 如果我想用 LOC 对数据帧进行切片,我可以按以下方式进行
dates=pd.date_range('20130101',periods=6)
df=pd.DataFrame(np.random.rand(6,4),index=dates,columns=list('ABCD'))
print(df.loc['20130102':'20130104',['A','B']]) (*)
一切顺利。 我不明白的是,如果在 LOC 的第二部分我可以输入列标题列表 ['A','B'] 为什么我不能对行做同样的事情? 即以下内容不起作用
print(df.loc[['20130102','20130104'],['A','B']])
背后的逻辑是什么?我给 LOC 两个行索引和两个列标题,但它不起作用。对于列部分,列表很好,对于行部分,它不是。 而且, 在 LOC 的第一部分(见 *),可以使用“:”访问行的索引,即从 index1 到 index2 = 'index1':'index2' 但我不能在 LOC 函数的第 2 部分中做同样的事情: 这是行不通的:
print(df.loc['20130102':'20130104',['A':'C']])
我很乐意理解为什么显示的这两行代码不起作用。
谢谢。
最佳答案
您需要将列表的值转换为datetime
,因为DatetimeIndex
,这意味着需要相同类型的列表值和DataFrame的索引/列的值,否则KeyError
:
print(df.loc[pd.to_datetime(['20130102','20130104']),['A','B']])
A B
2013-01-02 0.719469 0.423106
2013-01-04 0.438572 0.059678
按索引/列的第一个和最后一个值选择
转换为 datetimes
不是必需的,因为 partial string indexing .
对于按范围选择,仅删除用于选择列的列表 []
:
print(df.loc['20130102':'20130104','A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-03 0.480932 0.392118 0.343178
2013-01-04 0.438572 0.059678 0.398044
选择日期时间的类似解决方案:
print(df.loc['2013-01-02':'2013-01-04','A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-03 0.480932 0.392118 0.343178
2013-01-04 0.438572 0.059678 0.398044
组合:
#select betwen start/end datetime and only columns A,C
print(df.loc['20130102':'20130104',['A','C']])
A C
2013-01-02 0.719469 0.980764
2013-01-03 0.480932 0.343178
2013-01-04 0.438572 0.398044
#select only 20130102, 20130104 index and columns between A and C
print(df.loc[pd.to_datetime(['20130102','20130104']),'A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-04 0.438572 0.059678 0.398044
关于python - Pandas LOC 选择值背后的逻辑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53903889/