我正在处理一个时间序列,其中包含按给定顺序发生的某些事件:A->B->C->D
并且我想创建一个新的DataFrame
将这些事件的时间作为列,即来自 DataFrame
old_df
:
ev_type ev_time
1 W 2012-05-27 02:06:01
2 A 2012-05-28 02:06:01
3 B 2012-05-28 03:06:01
4 C 2012-05-28 04:06:01
5 D 2012-05-28 02:06:03
6 K 2012-05-28 02:06:01
... ... ...................
60000 D 2016-01-01 01:01:01
我想获得df
:
A_time B_time C_time D_time
1 2012-05-28 02:06:01 2012-05-28 03:06:01 2012-05-28 04:06:01 2012-05-28 04:06:01
... .... .... .... ....
5000 2015-05-28 02:06:01 2015-06-28 02:06:01 2015-07-28 02:06:01 2015-08-28 02:06:01
我所做的是
A_events = old_df.evtype == 'A'
df = old_df[A_events ].ev_time.to_frame()
df.rename(columns={"ev_time":"A_time"},inplace=True)
df.join(old_df[A_events.shift(1).fillna(False)].ev_time.shift(-1),axis=1)
但是最后一行不起作用,因为它不会更改索引。我能得到的最好的是
A_time B_time
2 2012-05-28 02:06:01 NaT
3 NaT 2012-05-28 03:06:01
如何对齐两个系列?或者是否有更好的策略从 pandas 数据框中提取事件序列或模式?
编辑
按照下面@Stefan建议的代码,我的数据生成器是
df = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=100,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='M', periods=100)})
最佳答案
对于任何访问此问题寻找类似问题的人,我在这里报告我是如何解决它的。我不确定这是查找事件序列的最 Pythonic/内存效率的方法...
为了生成数据,我使用了 Stefan 建议的代码
size_of_df = 10000
df_old = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=size_of_df,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='h', periods=size_of_df)})
该序列不经常出现,因此 df 的长度必须足够大(或者你必须运气好)
df_old.head(5)
ev_time ev_type
0 2016-01-01 00:00:00 D
1 2016-01-01 01:00:00 D
2 2016-01-01 02:00:00 A
3 2016-01-01 03:00:00 C
4 2016-01-01 04:00:00 W
然后,我移动数据框并将其粘合,以连续获取所有事件
sequence = "ABCD"
evnt = pd.concat([df_old.shift(-ix) for ix,let in enumerate(list(sequence))],axis=1,keys=list(sequence))
并寻找序列
tmp_evt = evnt.xs('ev_type',level=1,axis=1)
tmp_seq = tmp_evt.apply(lambda x: x.str.cat(),axis=1)
tmp_seq.head()
0 DDAC
1 DACW
2 ACWK
3 CWKD
4 WKDA
dtype: object
bool_sequence = tmp_seq == 'ABCD'
col_name=dict(zip(list(sequence),[ let + "_time" for let in list(sequence)]))
evnt[bool_sequence].xs('ev_time',level=1,axis=1).rename(columns=col_name).head()
A_time B_time C_time \
1648 2016-03-09 16:00:00 2016-03-09 17:00:00 2016-03-09 18:00:00
2913 2016-05-01 09:00:00 2016-05-01 10:00:00 2016-05-01 11:00:00
3803 2016-06-07 11:00:00 2016-06-07 12:00:00 2016-06-07 13:00:00
3879 2016-06-10 15:00:00 2016-06-10 16:00:00 2016-06-10 17:00:00
4730 2016-07-16 02:00:00 2016-07-16 03:00:00 2016-07-16 04:00:00
D_time
1648 2016-03-09 19:00:00
2913 2016-05-01 12:00:00
3803 2016-06-07 14:00:00
3879 2016-06-10 18:00:00
4730 2016-07-16 05:00:00
关于python - 将 Pandas 中事件的时间序列的列中的值序列转换为行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37849073/