我对 pandas 相当陌生,并且遇到了障碍。我有一个包含时间戳的数据帧。我想在我的数据框中添加一列,其中包含自定义期间名称(字符串)。例如:
df = pd.DataFrame(pd.date_range('01-01 00:00', periods='72', freq='H'))
我想创建一个包含自定义周期名称的列df['Periods']
。例如,如果时间戳介于 01-01 00:00
和 01-02 00:00
之间,则为 Period1
,Period2
否则。
我正在考虑使用 cut
但 bins 属性似乎只接受整数。
你会做什么?
谢谢。
最佳答案
在 df
初始化中,periods
必须是数字而不是字符串。
我想如何处理这个问题的方法将取决于您想要有多少个周期。
至少有几种方法:
设置周期:
from datetime import time
morning_start = time(7)
morning_end = time(12)
evening_start = time(18)
evening_end = time(22)
periods = {'morning':[morning_start, morning_end], 'evening':[evening_start, evening_end]}
方法 1。
def f(x, periods=periods):
for k, v in periods.items():
if x.hour >= v[0].hour and x.hour < v[1].hour:
return k
return 'unknown_period'
方法 2。
for k, v in periods.items():
df['periods'] = np.where(((v[0].hour <= df.t.apply(lambda x: x.hour)) & (df.t.apply(lambda x: x.hour) <= v[1].hour)), k, 'unknown_period')
通过定义的两个周期,第一种方法的效果更快:
1000 loops, best of 3: 658 µs per loop
对比第二:
100 loops, best of 3: 3.31 ms per loop
在这两种只有两个句点的情况下,您可以将其设为单行表达式(无需循环句点
):
df['periods'] = np.where((morning_start.hour <= df.t.apply(lambda x: x.hour)) & (df.t.apply(lambda x: x.hour) <= morning_end.hour), 'morning', 'evening')
关于python - 将时间戳合并到自定义时间段中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26659637/