python - 在时间序列数据框中选择一小时的数据

我在根据小时选择数据框中的数据时遇到问题。

我有一个月的数据，这些数据以 10 分钟的间隔增加。

我希望能够选择特定日期每小时的数据(创建另一个数据框)。但是，我在创建表达式时遇到问题。

这就是我选择日期的方法:

x=all_data.resample('D').index
for day in range(20):

        c=x.day[day]
        d=x.month[day]
        print data['%(a)s-%(b)s-2009' %{'a':c, 'b':d} ]

但是如果我这样做一个小时，它就不会起作用。

x=data['04-09-2009'].resample('H').index

for hour in range(8):
    daydata=data['4-9-2009 %(a)s'  %{'a':x.hour[hour]}]

我收到错误:

    raise KeyError('no item named %s' % com.pprint_thing(item))
KeyError: u'no item named 4-9-2009 0'

这是正确的，因为它的格式为 dd/mm/yyy hh:mm:ss

我确信这应该很容易并且与重新采样有关。问题是我不想对数据做任何事情，只需选择数据框(随后将其关联起来)

干杯

最佳答案

除非您想聚合为每日值(例如总和、最大值、中位数)，否则您无需对数据重新采样

如果您只想要特定一天的数据，您可以使用 .loc 的以下示例属性开始:

import numpy
import pandas
N = 3700
data = numpy.random.normal(size=N)
time = pandas.DatetimeIndex(freq='10T', start='2013-02-15 14:30', periods=N)
ts = pandas.Series(data=data, index=time)
ts.loc['2013-02-16']

使用 .loc 的好处在时间序列上，您可以根据需要对日期进行一般或具体操作。因此，对于特定的时间，您会说:

ts.loc['2013-02-16 13']  # notice that i didn't put any minutes in there

同样，您可以使用以下方法提取整整一个月的时间:

ts.loc['2013-02']

您在字符串格式设置方面遇到的问题是您使用 0 手动填充字符串。。因此，如果您有 2 位数的小时数(即下午)，您最终会得到 3 位数的小时数表示形式(这是无效的)。所以如果我想循环一组特定的时间，我会这样做:

hours = [2, 7, 12, 22]
for hr in hours:
    print(ts.loc['2013-02-16 {0:02d}'.format(hr)])

02d格式字符串告诉 python 从 digit 构造一个字符串(整数)至少有两个字符宽，并用 0 填充字符串如有必要，请选择左侧。此外，您可能需要将日期格式设置为 YYYY-mm-dd而不是相反。

关于python - 在时间序列数据框中选择一小时的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20271492/

python - 在时间序列数据框中选择一小时的数据

上一篇：python - 在 python 中使用嵌套 for 循环创建列表

下一篇：python - Pyopengl - 从 VBO 绘制的几条线但是索引颜色 VBO 不起作用