python - 将 Pandas 中事件的时间序列的列中的值序列转换为行

我正在处理一个时间序列，其中包含按给定顺序发生的某些事件:A->B->C->D 并且我想创建一个新的DataFrame 将这些事件的时间作为列，即来自 DataFrame old_df:

    ev_type       ev_time
1     W      2012-05-27 02:06:01
2     A      2012-05-28 02:06:01
3     B      2012-05-28 03:06:01
4     C      2012-05-28 04:06:01
5     D      2012-05-28 02:06:03
6     K      2012-05-28 02:06:01
...   ...    ...................
60000 D      2016-01-01 01:01:01

我想获得df:

              A_time               B_time               C_time                D_time
1       2012-05-28 02:06:01  2012-05-28 03:06:01  2012-05-28 04:06:01  2012-05-28 04:06:01
...             ....             ....               ....                    ....
5000    2015-05-28 02:06:01  2015-06-28 02:06:01 2015-07-28 02:06:01 2015-08-28 02:06:01

我所做的是

A_events = old_df.evtype == 'A'
df = old_df[A_events ].ev_time.to_frame()
df.rename(columns={"ev_time":"A_time"},inplace=True)
df.join(old_df[A_events.shift(1).fillna(False)].ev_time.shift(-1),axis=1)

但是最后一行不起作用，因为它不会更改索引。我能得到的最好的是

     A_time               B_time 
2  2012-05-28 02:06:01    NaT
3   NaT                  2012-05-28 03:06:01

如何对齐两个系列？或者是否有更好的策略从 pandas 数据框中提取事件序列或模式？

编辑

按照下面@Stefan建议的代码，我的数据生成器是

df = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=100,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='M', periods=100)})

最佳答案

对于任何访问此问题寻找类似问题的人，我在这里报告我是如何解决它的。我不确定这是查找事件序列的最 Pythonic/内存效率的方法...

为了生成数据，我使用了 Stefan 建议的代码

size_of_df = 10000
df_old = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=size_of_df,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='h', periods=size_of_df)})

该序列不经常出现，因此 df 的长度必须足够大(或者你必须运气好)

df_old.head(5)

              ev_time ev_type
0 2016-01-01 00:00:00       D
1 2016-01-01 01:00:00       D
2 2016-01-01 02:00:00       A
3 2016-01-01 03:00:00       C
4 2016-01-01 04:00:00       W

然后，我移动数据框并将其粘合，以连续获取所有事件

sequence = "ABCD"
evnt = pd.concat([df_old.shift(-ix) for ix,let in enumerate(list(sequence))],axis=1,keys=list(sequence))

并寻找序列

tmp_evt = evnt.xs('ev_type',level=1,axis=1)
tmp_seq = tmp_evt.apply(lambda x: x.str.cat(),axis=1)
tmp_seq.head()

0    DDAC
1    DACW
2    ACWK
3    CWKD
4    WKDA
dtype: object

bool_sequence = tmp_seq == 'ABCD'
col_name=dict(zip(list(sequence),[ let +   "_time" for let in list(sequence)]))
evnt[bool_sequence].xs('ev_time',level=1,axis=1).rename(columns=col_name).head()


                  A_time              B_time              C_time  \
1648 2016-03-09 16:00:00 2016-03-09 17:00:00 2016-03-09 18:00:00   
2913 2016-05-01 09:00:00 2016-05-01 10:00:00 2016-05-01 11:00:00   
3803 2016-06-07 11:00:00 2016-06-07 12:00:00 2016-06-07 13:00:00   
3879 2016-06-10 15:00:00 2016-06-10 16:00:00 2016-06-10 17:00:00   
4730 2016-07-16 02:00:00 2016-07-16 03:00:00 2016-07-16 04:00:00   

                  D_time  
1648 2016-03-09 19:00:00  
2913 2016-05-01 12:00:00  
3803 2016-06-07 14:00:00  
3879 2016-06-10 18:00:00  
4730 2016-07-16 05:00:00

关于python - 将 Pandas 中事件的时间序列的列中的值序列转换为行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37849073/

python - 将 Pandas 中事件的时间序列的列中的值序列转换为行

编辑

上一篇：python - 选择具有 bs4 的一个或多个特定属性的 HTML 标签

下一篇：python - 使用 numpy 获取每行的唯一计数〜和〜唯一值