python - Pandas Dataframe 在由索引分隔的部分中插值

标签 python python-2.7 pandas dataframe

我的示例代码如下:

import pandas as pd


dictx = {'col1':[1,'nan','nan','nan',5,'nan',7,'nan',9,'nan','nan','nan',13],\
    'col2':[20,'nan','nan','nan',22,'nan',25,'nan',30,'nan','nan','nan',25],\
    'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9]}
df = pd.DataFrame(dictx).astype(float)

我正在尝试插入包含值“nan”的各个段。
就上下文而言,我正在尝试使用城市(巴西圣保罗)提供的 GPS 数据来跟踪公交车速度,但数据很少,而且有些部分不提供信息,例如,但有些部分我知道它们已停止,例如黎明,但信息也以“nan”的形式出现。

我需要的:
我一直在尝试使用 dataframe.interpolate() 参数(limit 和 limit_direetcion),但效果不佳。如果我设置 df.interpolate(limit=2),我不仅会插入我需要的数据,还会插入不需要的数据。 所以我需要在限制定义的部分之间进行插值

期望的输出:

Out[7]: 
    col1   col2   col3
0    1.0  20.00  15.00
1    nan  nan    nan
2    nan  nan    nan
3    nan  nan    nan
4    5.0  22.00  10.00
5    6.0  23.50  12.00
6    7.0  25.00  14.00
7    8.0  27.50  13.50
8    9.0  30.00  13.00
9    nan  nan    nan
10   nan  nan    nan
11   nan  nan    nan
12   13.0 25.00  9.00

我一直在尝试应用的逻辑基本上是尝试找到 nan 并计算它们的索引之间的差异,从而创建一个新的 dataframe_temp 进行插值,然后将其添加到另一个创建新的 dataframe_final。但由于 'nan'=='nan' 返回 False

,这变得很难实现

最佳答案

这是一个 hack,但可能仍然有用。 Pandas 0.23 可能会有更好的解决方案。

https://pandas-docs.github.io/pandas-docs-travis/whatsnew.html#dataframe-interpolate-has-gained-the-limit-area-kwarg

df_fw = df.interpolate(limit=1)
df_bk = df.interpolate(limit=1, limit_direction='backward')

df_fw.where(df_bk.notna())

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    6.0  23.5  12.0
6    7.0  25.0  14.0
7    8.0  27.5  13.5
8    9.0  30.0  13.0
9    NaN   NaN   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12  13.0  25.0   9.0

不是黑客
更合法的处理方式。
广义处理任何限制。

def interp(df, limit):
    d = df.notna().rolling(limit + 1).agg(any).fillna(1)
    d = pd.concat({
        i: d.shift(-i).fillna(1)
        for i in range(limit + 1)
    }).prod(level=1)

    return df.interpolate(limit=limit).where(d.astype(bool))

df.pipe(interp, 1)

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    6.0  23.5  12.0
6    7.0  25.0  14.0
7    8.0  27.5  13.5
8    9.0  30.0  13.0
9    NaN   NaN   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12  13.0  25.0   9.0

还可以处理列与列之间 NaN 的变化。考虑一个不同的 df

dictx = {'col1':[1,'nan','nan','nan',5,'nan','nan',7,'nan',9,'nan','nan','nan',13],\
    'col2':[20,'nan','nan','nan',22,'nan',25,'nan','nan',30,'nan','nan','nan',25],\
    'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9,'nan']}
df = pd.DataFrame(dictx).astype(float)
df

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    NaN   NaN   NaN
6    NaN  25.0  14.0
7    7.0   NaN   NaN
8    NaN   NaN  13.0
9    9.0  30.0   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12   NaN   NaN   9.0
13  13.0  25.0   NaN

然后用 limit=1

df.pipe(interp, 1)

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    NaN  23.5  12.0
6    NaN  25.0  14.0
7    7.0   NaN  13.5
8    8.0   NaN  13.0
9    9.0  30.0   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12   NaN   NaN   9.0
13  13.0  25.0   9.0

并且 limit=2

df.pipe(interp, 2).round(2)

     col1   col2  col3
0    1.00  20.00  15.0
1     NaN    NaN   NaN
2     NaN    NaN   NaN
3     NaN    NaN   NaN
4    5.00  22.00  10.0
5    5.67  23.50  12.0
6    6.33  25.00  14.0
7    7.00  26.67  13.5
8    8.00  28.33  13.0
9    9.00  30.00   NaN
10    NaN    NaN   NaN
11    NaN    NaN   NaN
12    NaN    NaN   9.0
13  13.00  25.00   9.0

关于python - Pandas Dataframe 在由索引分隔的部分中插值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48933165/

相关文章:

python - Django 1.9 : CELERY_IMPORTS not working

python - Pandas 时间石斑鱼 : Custom Ranges

python - 如何显示 Caffe 故障堆栈跟踪?

python - 使 matplotlib 自动缩放忽略一些图

python - 在 Python GUI 中嵌入 Linux 程序?

python-2.7 - 如何使用 PySpark 并行运行独立转换?

python - 检查一个整数是否可以分为主分区?

python - 反转 Pandas DataFrame 中列顺序的大 O 复杂度是多少?

python - Pandas 使用其他 Dataframe 更新 Dataframe

python - 如何将 pandas DataFrame 中的列取消嵌套(分解)为多行