python - pandas (sub)Dataframe 中的最大值和最小值

标签 python pandas scikit-learn

我有以下数据框 -df :

                     crs         Band1 level
lat       lon                               
34.595694 32.929028  b''  4.000000e+00  1000
          32.937361  b''  1.200000e+01  950
          32.945694  b''  2.900000e+01  925
34.604028 32.929028  b''  7.000000e+00  1000
          32.937361  b''  1.300000e+01  950
                 ...           ...   ...
71.179028 25.679028  b''  6.000000e+01  750
71.187361 25.662361  b''  1.000000e+00  725
          25.670694  b''  6.000000e+01  1000
          25.679028  b''  4.000000e+01  800
71.529028 19.387361  b''  1.843913e-38  1000

[17671817 rows x 3 columns]

和两个数组:

lon1=np.arange(-11,47,0.25)
lat1=np.arange(71.5,34.5,-0.25)

这两个数组(lat1 , lon1 )产生间隔 0.25 度的坐标对。

Dataframe df 包含点(lat , lon ),这些点密集分布在用 lon1lat1 数组。我想做的是:

  1. df 中查找(过滤)与 lat1,lon1 定义的点相差 0.125 度以内的所有点
  2. 从该子数据帧中获取 levelmaxmin 值,并将它们存储在与 lon1 大小相同的单独数组中> 和 lat1

到目前为止我所做的是过滤数据框:

for x1 in lon1:
    for y1 in lat1:
        df3=df[(df.index.get_level_values('lon')>x1-0.125) & (df.index.get_level_values('lon')<x1+0.125)]
        df3=df3[(df3.index.get_level_values('lat')>y1-0.125) & (df3.index.get_level_values('lat')<y1+0.125)]

但这有很慢的性能。我相信有一个更快的。 我也标记了 scikit-learn,因为它可能可以完成,但我缺乏使用这个包的经验。 欢迎任何帮助。

最佳答案

在我们开始之前,让我们将您的箱子转换为每个箱子的开始而不是中心:

lon1=np.arange(-11.125,47.125,0.25)
lat1=np.arange(71.625,34.125,-0.25)

为每一行分配纬度和经度 bin(注意 lat1 的相反顺序,否则您需要将 ordered=False 传递给 pd.cut())。

df['latcat'] = pd.cut(df.index.get_level_values(0), lat1[::-1])
df['loncat'] = pd.cut(df.index.get_level_values(1), lon1)

对于您的示例数据,我们现在有:

                     crs         Band1  level            latcat            loncat
lat       lon                                                                    
34.595694 32.929028  b''  4.000000e+00   1000  (34.375, 34.625]  (32.875, 33.125]
          32.937361  b''  1.200000e+01    950  (34.375, 34.625]  (32.875, 33.125]
          32.945694  b''  2.900000e+01    925  (34.375, 34.625]  (32.875, 33.125]
34.604028 32.929028  b''  7.000000e+00   1000  (34.375, 34.625]  (32.875, 33.125]
          32.937361  b''  1.300000e+01    950  (34.375, 34.625]  (32.875, 33.125]
71.179028 25.679028  b''  6.000000e+01    750  (71.125, 71.375]  (25.625, 25.875]
71.187361 25.662361  b''  1.000000e+00    725  (71.125, 71.375]  (25.625, 25.875]
          25.670694  b''  6.000000e+01   1000  (71.125, 71.375]  (25.625, 25.875]
          25.679028  b''  4.000000e+01    800  (71.125, 71.375]  (25.625, 25.875]
71.529028 19.387361  b''  1.843913e-38   1000  (71.375, 71.625]  (19.375, 19.625]

现在使用 groupby 获取每个区域的最小和最大级别:

res = df.groupby([df.latcat.cat.codes, df.loncat.cat.codes])['level'].agg(['min', 'max'])

这给了你:

          min   max
0   176   925  1000
147 147   725  1000
148 122  1000  1000

索引的第一级是反向 lat1 数组中的位置,-1 表示“超出范围”,您的一些示例数据就是这样。第二层是lon1数组中的位置。

按要求转换为矩阵:

minlevel = np.full((len(lat1), len(lon1)), np.nan)
maxlevel = np.full((len(lat1), len(lon1)), np.nan)
x = len(lat1) - res.index.get_level_values(0) - 1 # reverse to original order
y = res.index.get_level_values(1)
minlevel[x, y] = res['min']
maxlevel[x, y] = res['max']

关于python - pandas (sub)Dataframe 中的最大值和最小值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64036120/

相关文章:

python - 复合 if elif else 语句 + python

python - 使用 Robot Framework 截取整个网页的屏幕截图

python - 在数据框的单个列上进行 Pandas 逻辑索引以分配值

python - Scikit-learn:不要将某些单词用作单个单词特征,而是用于搭配

python - 值错误: Found unknown categories while calling cross_val_score

python - Sklearn - 通过管道传递并包装在 GridSearchCV 中后访问标量属性

python - 使用 pymongo 保持连续的 mongo 连接处于事件状态

python - 在 python 中获取 Windows 版本的更好方法是什么?

Python、Pandas 匹配数据框并指示列表中的结果

python - 使用 pandas 对多列重新采样