本质:
如果列包含超过 5 个缺失值的序列,我想从该数据帧中删除相应的索引。所以在像下面这样的数据框中......
A B
2017-01-01 -0.0053 -0.0062
2017-01-02 NaN 0.0016
2017-01-03 NaN 0.0043
2017-01-04 NaN -0.0077
2017-01-05 NaN -0.0070
2017-01-06 NaN 0.0058
2017-01-07 0.0024 -0.0074
2017-01-08 0.0018 0.0086
2017-01-09 0.0020 0.0012
2017-01-10 -0.0031 -0.0020
2017-01-11 0.0027 NaN
2017-01-12 -0.0050 NaN
2017-01-13 -0.0063 NaN
2017-01-14 0.0066 0.0095
2017-01-15 0.0039 0.0028
...我想删除索引 2017-01-02
到 2017-01-06
,以便所需的输出如下所示:
A B
2017-01-01 -0.0053 -0.0062
2017-01-07 0.0024 -0.0074
2017-01-08 0.0018 0.0086
2017-01-09 0.0020 0.0012
2017-01-10 -0.0031 -0.0020
2017-01-11 0.0027 NaN
2017-01-12 -0.0050 NaN
2017-01-13 -0.0063 NaN
2017-01-14 0.0066 0.0095
2017-01-15 0.0039 0.0028
我怎样才能有效地做到这一点?
详细信息:
这是重现数据帧的片段:
# imports
import pandas as pd
import numpy as np
np.random.seed(1234)
# Reproducible data sample
def df_sample(rows, names):
''' Function to create data sample with random returns
Parameters
==========
rows : number of rows in the dataframe
names: list of names to represent assets
Example
=======
>>> returns(rows = 2, names = ['A', 'B'])
A B
2017-01-01 0.0027 0.0075
2017-01-02 -0.0050 -0.0024
'''
listVars= names
rng = pd.date_range('1/1/2017', periods=rows, freq='D')
df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars)
df_temp = df_temp.set_index(rng)
df_temp = df_temp / 10000
return df_temp
df = df_sample(15,list('AB'))
我知道的并发症
如果数据框在多个列中具有重叠索引且缺少值,如下所示:
A B
2017-01-01 -0.0053 -0.0062
2017-01-02 NaN 0.0016
2017-01-03 NaN 0.0043
2017-01-04 NaN NaN
2017-01-05 NaN NaN
2017-01-06 NaN NaN
2017-01-07 0.0024 NaN
2017-01-08 0.0018 NaN
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
...然后我猜任何使用 apply
逐列的解决方案都会呈现这样的临时数据框...
A B
2017-01-01 -0.0053 -0.0062
2017-01-07 0.0024 NaN
2017-01-08 0.0018 NaN
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
...然后可能会忽略 B 列
从 2017-01-04
到 2017-01-08
的原始缺失索引。但这也许只是人们必须接受的事情。但理想情况下,解决方案应该认识到这些索引最初代表 5 个连续缺失的值,并删除这些索引,以便生成的数据帧如下所示:
A B
2017-01-01 -0.0053 -0.0062
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
(但是最后一个 NaN 呢?我会简单地向前填充
。但是对每个缺失值做同样的事情会让事情变得更糟。)
所以我猜这可能是一个比我最初怀疑的更复杂的问题(也许这也是函数 pandas.DataFrame.dropna
没有具体参数的原因)。
我尝试过的:
<强>1。 pandas.DataFrame.dropna
我认为参数 thresh
是使用 pandas.DataFrame.dropna 的一种方法。 ,但根据文档,该参数为现有设置阈值,而不是缺失值:
thresh : int, default None
int value : require that many non-NA values
<强>2。逐列定义和查找 nan 的模式
以下是基于建议答案的可能解决方案 here 。但是,它确实要求您定义要在序列中查找 5 个且仅查找 5 个缺失值。为了完成解决方案,我还必须找到所有列表中的索引并集,这些列表代表所有列的缺失序列的索引,然后根据该值对数据帧进行子集化。
感谢您的任何其他建议!
以下是轻松复制粘贴的全部内容:
import pandas as pd
import numpy as np
np.random.seed(1234)
# Reproducible data sample
def df_sample(rows, names):
''' Function to create data sample with random returns
Parameters
==========
rows : number of rows in the dataframe
names: list of names to represent assets
Example
=======
>>> returns(rows = 2, names = ['A', 'B'])
A B
2017-01-01 0.0027 0.0075
2017-01-02 -0.0050 -0.0024
'''
listVars= names
rng = pd.date_range('1/1/2017', periods=rows, freq='D')
df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars)
df_temp = df_temp.set_index(rng)
df_temp = df_temp / 10000
return df_temp
df = df_sample(15,list('AB'))
df['A'][1:6] = np.nan
df['B'][3:8] = np.nan
dfi = df
# convert to boolean values
df = dfi
df = df.isnull()
# specify pattern
pattern = [True,True, True, True, True]
# prepare for a for loop
idx = []
# loop through all columns and identify sequence of missing values
for col in df:
df_temp = df[col].to_frame()
matched = df_temp.rolling(len(pattern)).apply(lambda x: all(np.equal(x, pattern)))
matched = matched.sum(axis = 1).astype(bool)
idx_matched = np.where(matched)[0]
subset = [range(match-len(pattern)+1, match+1) for match in idx_matched]
result = pd.concat([df.iloc[subs,:] for subs in subset], axis = 0).index
idx.append(result)
print(idx)
输出(逐列的纳米序列索引):
[DatetimeIndex(['2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05','2017-01-06'],
dtype='datetime64[ns]', freq=None),
DatetimeIndex(['2017-01-04', '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08'],
dtype='datetime64[ns]', freq=None)]
最佳答案
这应该可以解决你的问题。它直到最后才删除行,因此它将在第二种情况下按照您的需要正确解析多列。我使用了您的复杂性部分中的 df
作为下面代码的输出。
说明:
我们创建另一个 df,其中
NaN
值被分配为零,每个有限值被分配为 1(如果您的初始df
值为零,您将需要首先将它们映射到此虚拟df2
中的任何其他数字,然后.fillna(0).astype('bool')
)通过按每列的累积和进行分组,我们可以找到其中存在超过 5 个连续
NaN
值的位置。与原始 df 的比较可确保我们不会捕获第一个非空值。掩码是在任何应该删除的行末尾创建的,因此您可以针对具有重叠
NaN
值的多列正确解析它。
代码如下:
import pandas as pd
import numpy as np
## If the initial df contains values of 0 do this instead of the first line below
#df2 = df.copy()
#df2[df2==0] = 0.01
#df2 = df2.fillna(0).astype('bool').cumsum()
# Min number of consecutive NaN values to begin dropping
n_cons = 5
df2 = df.fillna(0).astype('bool').cumsum()
for col in df2.columns:
df2[col] = df2.groupby(col)[col].transform(lambda x: np.size(x) > n_cons)
df2[col] = df2[col] & df[col].isnull()
mask = df2.any(axis=1)
df[~mask]
# A B
#2017-01-01 -0.0053 -0.0062
#2017-01-09 0.0020 0.0012
#2017-01-10 NaN -0.0020
关于python - 如何处理 pandas 数据帧中特定长度序列中的缺失值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50062964/