python - 如何理解 pandas resample 方法中的封闭和标签参数?

标签 python pandas dataframe time-series

基于此处的 Pandas 文档:Docs

和例子:

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

重采样后:

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

在我看来,重采样后 bin 应该如下所示:

=========bin 01=========
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2

=========bin 02=========
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5

=========bin 03=========
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8

我在这一步上做对了吗?

所以在.sum之后我觉得应该是这样的:

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

我只是不明白它是怎么出来的:

2000-01-01 00:00:00 0

(因为 label='right',在这种情况下 2000-01-01 00:00:00 不能是任何 bin 的任何右边缘)。

2000-01-01 00:09:00 15

(原始系列中甚至不存在标签 2000-01-01 00:09:00。

最佳答案

简答:如果您使用 closed='left'loffset='2T'然后你会得到你所期望的:

series.resample('3T', label='left', closed='left', loffset='2T').sum()

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

长答案:(或者为什么你得到的结果是正确的,考虑到你使用的参数)这可能从文档中不清楚,但在此设置中打开和关闭是关于严格与非-严格不等式(例如 <<= )。

一个例子应该可以清楚地说明这一点。使用示例中的内部间隔,这与更改 closed 的值不同。 :

closed='right' =>  ( 3:00, 6:00 ]  or  3:00 <  x <= 6:00
closed='left'  =>  [ 3:00, 6:00 )  or  3:00 <= x <  6:00

您可以在许多地方找到间隔表示法(圆括号与方括号)的解释,例如: https://en.wikipedia.org/wiki/Interval_(mathematics)

label参数仅控制是否显示左侧 (3:00) 或右侧 (6:00),但不会影响结果本身。

另请注意,您可以使用 loffset 更改间隔的起点参数(应作为时间增量输入)。

回到示例,我们仅将标签从“右”更改为“左”:

series.resample('3T', label='right', closed='right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

series.resample('3T', label='left', closed='right').sum()

1999-12-31 23:57:00     0
2000-01-01 00:00:00     6
2000-01-01 00:03:00    15
2000-01-01 00:06:00    15

如您所见,结果是一样的,只是索引标签发生了变化。 Pandas 只允许您显示右侧或左侧标签,但如果它显示两者,那么它看起来像这样(下面我使用标准索引符号,其中左侧的 ( 表示打开和右边的]表示关闭):

( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ]   0   # = 0
( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ]   6   # = 1+2+3
( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ]  15   # = 4+5+6
( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ]  15   # =   7+8

请注意,第一个 bin (23:57:00,00:00:00] 不是空的,它只是包含一行并且该行中的值为零。如果将“sum”更改为'count' 这变得更加明显:

series.resample('3T', label='left', closed='right').count()

1999-12-31 23:57:00    1
2000-01-01 00:00:00    3
2000-01-01 00:03:00    3
2000-01-01 00:06:00    2

关于python - 如何理解 pandas resample 方法中的封闭和标签参数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48340463/

相关文章:

python - Python 中类似的 .rdata 功能?

python - 从 Pandas DataFrame 列中删除特定符号(unicode)

python - 使用前向填充缺失日期为每个 ID 添加每日数据

python - 如何将Python数据框中的对象转换为仅int数字?

python - Pandas - 对 DataFrame 的索引应用转换

Python: undefined variable ?

python - NLTK:如何从 csv 文件创建语料库

python - 根据另一列查找公共(public)列值

pandas - 为什么 `&=` 会出现在 pandas 数据框中?

python - 如何检查包含不同数据类型的 pandas 数据框中的负值?