python - 如何从 pandas 数据框中找到调和平均速度

标签 python python-3.x sorting date pandas

我有一个 pandas 数据框,其中包含一列以 KmH 为单位的速度和一列时间戳:

Date,                     Speed
2016-07-07 13:38:02.000,  50.718590
2016-07-18 11:28:00.000,   2.357645
2016-07-15 15:03:08.000,  14.652172
2016-07-18 06:53:00.000,  24.530390
...                       ...
2016-07-18 18:41:31.000,  31.761416
2016-07-14 05:28:42.187,   7.532758

我想要的是有一个harmonic average speed平均每天每 15 分钟:

Time,  Speed
00:00, 32
00:15, 10
00:30, 12
00:45, 41
01:00, 12
...
23:30, 30
23:45, 31

我最初的尝试是从每个时间戳中删除日期,将其设置为索引,然后使用 TimeGrouper 查找平均值。 (我的数据框称为输出)代码是:

output['Speed'] = output['Speed']**-1
output['Date'] = output['Date'].apply( lambda d : d.time() )
output = output.set_index(['Date'])
output = output.groupby(pd.TimeGrouper('15Min')).mean()
output['Speed'] = output['Speed']**-1

但是代码不起作用,因为它给了我一个错误:

 Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of 'Int64Index'

最佳答案

我认为您想要做的是标准化日期,然后进行重新采样:

In [177]:
df['Date'] = pd.to_datetime(df['Date'].dt.strftime('%H:%M:%S'))
df

Out[177]:
                 Date      Speed
0 2017-02-07 13:38:02  50.718590
1 2017-02-07 11:28:00   2.357645
2 2017-02-07 15:03:08  14.652172
3 2017-02-07 06:53:00  24.530390
4 2017-02-07 18:41:31  31.761416
5 2017-02-07 05:28:42   7.532758

现在所有日期都相同,默认为今天的日期,然后执行您想要的操作:

In [178]:
output = df.set_index('Date')
output = output.groupby(pd.TimeGrouper('15Min')).mean()
output['Speed'] = output['Speed']**-1
output

Out[178]:
                        Speed
Date                         
2017-02-07 05:15:00  0.132754
2017-02-07 05:30:00       NaN
2017-02-07 05:45:00       NaN
2017-02-07 06:00:00       NaN
2017-02-07 06:15:00       NaN
2017-02-07 06:30:00       NaN
2017-02-07 06:45:00  0.040766
2017-02-07 07:00:00       NaN
2017-02-07 07:15:00       NaN
2017-02-07 07:30:00       NaN
2017-02-07 07:45:00       NaN
2017-02-07 08:00:00       NaN
2017-02-07 08:15:00       NaN
2017-02-07 08:30:00       NaN
2017-02-07 08:45:00       NaN
2017-02-07 09:00:00       NaN
2017-02-07 09:15:00       NaN
2017-02-07 09:30:00       NaN
2017-02-07 09:45:00       NaN
2017-02-07 10:00:00       NaN
2017-02-07 10:15:00       NaN
2017-02-07 10:30:00       NaN
2017-02-07 10:45:00       NaN
2017-02-07 11:00:00       NaN
2017-02-07 11:15:00  0.424152
2017-02-07 11:30:00       NaN
2017-02-07 11:45:00       NaN
2017-02-07 12:00:00       NaN
2017-02-07 12:15:00       NaN
2017-02-07 12:30:00       NaN
2017-02-07 12:45:00       NaN
2017-02-07 13:00:00       NaN
2017-02-07 13:15:00       NaN
2017-02-07 13:30:00  0.019717
2017-02-07 13:45:00       NaN
2017-02-07 14:00:00       NaN
2017-02-07 14:15:00       NaN
2017-02-07 14:30:00       NaN
2017-02-07 14:45:00       NaN
2017-02-07 15:00:00  0.068249
2017-02-07 15:15:00       NaN
2017-02-07 15:30:00       NaN
2017-02-07 15:45:00       NaN
2017-02-07 16:00:00       NaN
2017-02-07 16:15:00       NaN
2017-02-07 16:30:00       NaN
2017-02-07 16:45:00       NaN
2017-02-07 17:00:00       NaN
2017-02-07 17:15:00       NaN
2017-02-07 17:30:00       NaN
2017-02-07 17:45:00       NaN
2017-02-07 18:00:00       NaN
2017-02-07 18:15:00       NaN
2017-02-07 18:30:00  0.031485

所以这个:

df['Date'] = pd.to_datetime(df['Date'].dt.strftime('%H:%M:%S'))

它的作用是使用 dt.strftime 将时间提取为字符串,然后我们可以使用 to_datetime 制作一个 datetime64 系列,其中所有日期都相同

关于python - 如何从 pandas 数据框中找到调和平均速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42094097/

相关文章:

Python 将字符串输入与现有字典匹配的简单方法

python-3.x - Python 无法在生产中运行的谷歌云上找到文件

python - 如何在python中将文件保存到特定目录?

java - 使用 Collections.sort(arrayListName) 按 id 对充满对象的 ArrayList 进行排序

python - SQLAlchemy 不会在 MySQL [Debian Linux] 上创建外键

python - 请用Python解释以下代码的输出

python - 打印按行排序的 zip 中文件的注释,Python

python - 有没有办法通过只调用类的名称来调用函数?

algorithm - 通过算法计算全局 Tab 键顺序?

java - 集合排序无法正常工作