python - 如何处理 pandas 数据帧中特定长度序列中的缺失值?

标签 python pandas missing-data

本质:

如果列包含超过 5 个缺失值的序列,我想从该数据帧中删除相应的索引。所以在像下面这样的数据框中......

                A       B
2017-01-01 -0.0053 -0.0062
2017-01-02     NaN  0.0016
2017-01-03     NaN  0.0043
2017-01-04     NaN -0.0077
2017-01-05     NaN -0.0070
2017-01-06     NaN  0.0058
2017-01-07  0.0024 -0.0074
2017-01-08  0.0018  0.0086
2017-01-09  0.0020  0.0012
2017-01-10 -0.0031 -0.0020
2017-01-11  0.0027     NaN
2017-01-12 -0.0050     NaN
2017-01-13 -0.0063     NaN
2017-01-14  0.0066  0.0095
2017-01-15  0.0039  0.0028

...我想删除索引 2017-01-022017-01-06 ,以便所需的输出如下所示:

                 A       B
2017-01-01 -0.0053 -0.0062
2017-01-07  0.0024 -0.0074
2017-01-08  0.0018  0.0086
2017-01-09  0.0020  0.0012
2017-01-10 -0.0031 -0.0020
2017-01-11  0.0027     NaN
2017-01-12 -0.0050     NaN
2017-01-13 -0.0063     NaN
2017-01-14  0.0066  0.0095
2017-01-15  0.0039  0.0028

我怎样才能有效地做到这一点?


详细信息:

这是重现数据帧的片段:

# imports
import pandas as pd
import numpy as np
np.random.seed(1234)

# Reproducible data sample
def df_sample(rows, names):
    ''' Function to create data sample with random returns

    Parameters
    ==========
    rows : number of rows in the dataframe
    names: list of names to represent assets

    Example
    =======

    >>> returns(rows = 2, names = ['A', 'B'])

                  A       B
    2017-01-01  0.0027  0.0075
    2017-01-02 -0.0050 -0.0024
    '''
    listVars= names
    rng = pd.date_range('1/1/2017', periods=rows, freq='D')
    df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars) 
    df_temp = df_temp.set_index(rng)
    df_temp = df_temp / 10000

    return df_temp

df = df_sample(15,list('AB'))

我知道的并发症

如果数据框在多个列中具有重叠索引且缺少值,如下所示:

                 A       B
2017-01-01 -0.0053 -0.0062
2017-01-02     NaN  0.0016
2017-01-03     NaN  0.0043
2017-01-04     NaN     NaN
2017-01-05     NaN     NaN
2017-01-06     NaN     NaN
2017-01-07  0.0024     NaN
2017-01-08  0.0018     NaN
2017-01-09  0.0020  0.0012
2017-01-10  NaN    -0.0020

...然后我猜任何使用 apply 逐列的解决方案都会呈现这样的临时数据框...

                 A       B
2017-01-01 -0.0053 -0.0062
2017-01-07  0.0024     NaN
2017-01-08  0.0018     NaN
2017-01-09  0.0020  0.0012
2017-01-10  NaN    -0.0020

...然后可能会忽略 B 列2017-01-042017-01-08 的原始缺失索引。但这也许只是人们必须接受的事情。但理想情况下,解决方案应该认识到这些索引最初代表 5 个连续缺失的值,并删除这些索引,以便生成的数据帧如下所示:

                 A       B
2017-01-01 -0.0053 -0.0062
2017-01-09  0.0020  0.0012
2017-01-10  NaN    -0.0020

(但是最后一个 NaN 呢?我会简单地向前填充。但是对每个缺失值做同样的事情会让事情变得更糟。)

所以我猜这可能是一个比我最初怀疑的更复杂的问题(也许这也是函数 pandas.DataFrame.dropna 没有具体参数的原因)。


我尝试过的:

<强>1。 pandas.DataFrame.dropna

我认为参数 thresh 是使用 pandas.DataFrame.dropna 的一种方法。 ,但根据文档,该参数为现有设置阈值,而不是缺失值:

thresh : int, default None

int value : require that many non-NA values

<强>2。逐列定义和查找 nan 的模式

以下是基于建议答案的可能解决方案 here 。但是,它确实要求您定义要在序列中查找 5 个且仅查找 5 个缺失值。为了完成解决方案,我还必须找到所有列表中的索引并集,这些列表代表所有列的缺失序列的索引,然后根据该值对数据帧进行子集化。

感谢您的任何其他建议!

以下是轻松复制粘贴的全部内容:

import pandas as pd
import numpy as np


np.random.seed(1234)

# Reproducible data sample
def df_sample(rows, names):
    ''' Function to create data sample with random returns

    Parameters
    ==========
    rows : number of rows in the dataframe
    names: list of names to represent assets

    Example
    =======

    >>> returns(rows = 2, names = ['A', 'B'])

                  A       B
    2017-01-01  0.0027  0.0075
    2017-01-02 -0.0050 -0.0024
    '''
    listVars= names
    rng = pd.date_range('1/1/2017', periods=rows, freq='D')
    df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars) 
    df_temp = df_temp.set_index(rng)
    df_temp = df_temp / 10000

    return df_temp

df = df_sample(15,list('AB'))

df['A'][1:6] = np.nan
df['B'][3:8] = np.nan
dfi = df

# convert to boolean values
df = dfi
df = df.isnull()

# specify pattern
pattern = [True,True, True, True, True]

# prepare for a for loop
idx = []

# loop through all columns and identify sequence of missing values
for col in df:
    df_temp = df[col].to_frame()

    matched = df_temp.rolling(len(pattern)).apply(lambda x: all(np.equal(x, pattern)))
    matched = matched.sum(axis = 1).astype(bool)
    idx_matched = np.where(matched)[0]
    subset = [range(match-len(pattern)+1, match+1) for match in idx_matched]

    result = pd.concat([df.iloc[subs,:] for subs in subset], axis = 0).index
    idx.append(result)
print(idx)

输出(逐列的纳米序列索引):

    [DatetimeIndex(['2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05','2017-01-06'],
          dtype='datetime64[ns]', freq=None),
    DatetimeIndex(['2017-01-04', '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08'],
          dtype='datetime64[ns]', freq=None)]

最佳答案

这应该可以解决你的问题。它直到最后才删除行,因此它将在第二种情况下按照您的需要正确解析多列。我使用了您的复杂性部分中的 df 作为下面代码的输出。

说明:

  • 我们创建另一个 df,其中 NaN 值被分配为零,每个有限值被分配为 1(如果您的初始 df 值为零,您将需要首先将它们映射到此虚拟 df2 中的任何其他数字,然后 .fillna(0).astype('bool'))

  • 通过按每列的累积和进行分组,我们可以找到其中存在超过 5 个连续 NaN 值的位置。与原始 df 的比较可确保我们不会捕获第一个非空值。

  • 掩码是在任何应该删除的行末尾创建的,因此您可以针对具有重叠 NaN 值的多列正确解析它。

代码如下:

import pandas as pd
import numpy as np

## If the initial df contains values of 0 do this instead of the first line below
#df2 = df.copy()
#df2[df2==0] = 0.01
#df2 = df2.fillna(0).astype('bool').cumsum()

# Min number of consecutive NaN values to begin dropping
n_cons = 5

df2 = df.fillna(0).astype('bool').cumsum()
for col in df2.columns:
    df2[col] = df2.groupby(col)[col].transform(lambda x: np.size(x) > n_cons)
    df2[col] = df2[col] & df[col].isnull()

mask = df2.any(axis=1)

df[~mask]
#                 A       B
#2017-01-01 -0.0053 -0.0062
#2017-01-09  0.0020  0.0012
#2017-01-10     NaN -0.0020

关于python - 如何处理 pandas 数据帧中特定长度序列中的缺失值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50062964/

相关文章:

python - 在运行时将数据帧与另一个数据帧合并

R数据框根据其他数据框填充缺失值

python - scipy.stats 如何处理 nans?

pandas - 如何按 'pandas' 中的列获取缺失/NaN 数据的汇总计数?

python - pandas.df.columns - 使输出在视觉上有用

python - 如何执行另一个python文件然后关闭现有的文件?

python - 使用 BeautifulSoup 的 findAll 搜索 html 元素的 innerText 以获得与搜索属性相同的结果?

python - Flask - SQLAlchemy - 插入 GUID(BINARY(16)) 作为主键后出错

python - Pandas 在 Mac OS X 上的安装 : ImportError (cannot import name hashtable)

python - 当调用相同的端点时,带有 CherryPy 的 Bottle 不会表现为多线程