python - 计算每行 DataFrame 中第一个有效值和最后一个有效值之间的差异？

我试图找到 DataFrame 中第一个有效值和最后一个有效值之间的差异每行。

我有一个带有 for 循环的工作代码，正在寻找更快的东西。这是我目前正在做的事情的一个例子:

import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.arange(16).astype(np.float).reshape(4, 4),
    columns=['a', 'b', 'c', 'd'])
# Fill some NaN
df.loc[0, ['a', 'd']] = np.nan
df.loc[1, ['c', 'd']] = np.nan
df.loc[2, 'b'] = np.nan
df.loc[3, :] = np.nan

print(df)
#    a    b     c     d
# 0  NaN  1.0   2.0   NaN
# 1  4.0  5.0   NaN   NaN
# 2  8.0  NaN  10.0  11.0
# 3  NaN  NaN   NaN   NaN

diffs = pd.Series(index=df.index)
for i in df.index:
    row = df.loc[i]
    min_i = row.first_valid_index()
    max_i = row.last_valid_index()
    if min_i is None or min_i == max_i:  # 0 or 1 valid values
        continue
    diffs[i] = df.loc[i, max_i] - df.loc[i, min_i]

df['diff'] = diffs
print(df)

#    a    b     c     d  diff
# 0  NaN  1.0   2.0   NaN   1.0
# 1  4.0  5.0   NaN   NaN   1.0
# 2  8.0  NaN  10.0  11.0   3.0
# 3  NaN  NaN   NaN   NaN   NaN

最佳答案

一种方法是 back and forward fill缺失值，然后只比较第一行和最后一行。

df2 = df.fillna(method='ffill', axis=1).fillna(method='bfill', axis=1)
df['diff'] = df2.ix[:, -1] - df2.ix[:, 0]

如果你想在一行中完成，而不创建新的数据框:

df['diff'] = df.fillna(method='ffill', axis=1).fillna(method='bfill', axis=1).apply(lambda r: r.d - r.a, axis=1)

关于python - 计算每行 DataFrame 中第一个有效值和最后一个有效值之间的差异？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40156907/

上一篇：python - Seaborn PointPlot 类别排序问题

下一篇：python - 按子元素 Python 对 XML 标签进行排序

相关文章：

python - 如何让pytest重写非测试模块中的assert

python - python 如何仅使用文件中每一行的最后一部分？

python - 拆分列 >> 获取唯一值 >> 将唯一值添加回列

r - 将列值拆分为 R 中的单独列

r - 如何将数据框扩展为从总和到单个观察

python - Pandas :将一个数据框的特定列连接到另一个数据框

Python 多处理查询

python - 如何构建依赖大型系统库的Python包

Python Pandas : Groupby Cumulative Sum, 但避免标志为 0 的总和

python - 基于日期时间索引屏蔽数据框列