python - 聚合时间戳数据的更好方法?

标签 python pandas ipython

我正在处理非统一收集的时间戳索引数据,最终将按每分钟、每小时计算统计数据。我想知道按时间段聚合的最佳方法是什么。

我当前计算两个 lambda 函数,然后将两列添加到数据框中,如下所示:

h = lambda i: pd.to_datetime(i.strftime('%Y-%m-%d %H:00:00'))
m = lambda i: pd.to_datetime(i.strftime('%Y-%m-%d %H:%M:00'))
df['hours'] = df.index.map(h)
df['minutes'] = df.index.map(m)

这使我可以轻松地使用groupby进行聚合,如下所示:

by_hour = df.groupby('hours')

我确信有更好或更Pythonic的方法来做到这一点,但我还没有弄清楚,并且希望得到任何帮助。

最佳答案

对于 pandas,你有几种选择。对于简单的统计,您可以在具有日期时间索引的 DataFrame/Series 上使用重新采样方法。

In [35]: ts
Out[35]: 
2012-01-01 00:00:00    127
2012-01-01 00:00:01    452
2012-01-01 00:00:02    231
2012-01-01 00:00:03    434
2012-01-01 00:00:04    139
2012-01-01 00:00:05    223
2012-01-01 00:00:06    409
2012-01-01 00:00:07    101
2012-01-01 00:00:08      3
2012-01-01 00:00:09    393
2012-01-01 00:00:10    208
2012-01-01 00:00:11    416
2012-01-01 00:00:12    136
2012-01-01 00:00:13    343
2012-01-01 00:00:14    387
...
2012-01-01 00:01:25    307
2012-01-01 00:01:26    267
2012-01-01 00:01:27    199
2012-01-01 00:01:28    479
2012-01-01 00:01:29    423
2012-01-01 00:01:30    334
2012-01-01 00:01:31    442
2012-01-01 00:01:32    282
2012-01-01 00:01:33    289
2012-01-01 00:01:34    166
2012-01-01 00:01:35      4
2012-01-01 00:01:36    306
2012-01-01 00:01:37    165
2012-01-01 00:01:38    415
2012-01-01 00:01:39    316
Freq: S, Length: 100

In [37]: ts.resample('t', how='mean')
Out[37]: 
2012-01-01 00:00:00    270.166667
2012-01-01 00:01:00    221.400000
Freq: T, dtype: float64

为了获得更大的灵活性,您可以按时间戳对象的小时(或分钟、秒等)属性进行分组:

In [38]: g = ts.groupby(lambda x: x.minute)

In [39]: g
Out[39]: <pandas.core.groupby.SeriesGroupBy object at 0x107045150>

查看有关重采样的文档:http://pandas.pydata.org/pandas-docs/dev/timeseries.html#up-and-downsampling

关于python - 聚合时间戳数据的更好方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19818446/

相关文章:

python - 用 BeautifulSoup 和多个段落进行抓取

python - 如何检查 tkinter 中的列表框是否为空?

网络上的Python : executing code as it's processed?

python - 值 161137531201111100, 1.611375312011111e+17 是否相等?

python - 按类别获取最大值索引

python - 向条形图添加图像注释

python - 如何根据比较两列中的值来组合 pandas 数据框中的行?

jupyter-notebook - Jupyter 实验室中的只读 Python Notebook

widget - 如何使用 IPython Widgets 让一个参数的可能值依赖于另一个参数?

ipython - Jupyter 在哪个 conda 环境中执行?