grouping - 选择每组的最低值

这个问题与 Stata: select the minimum of each observation 相关。

我的数据如下:

clear
input str4 id int eventdate byte dia_bp_copy int sys_bp_copy
"pat"  15698 100 140
"pat"  16183  80 120
"pat"  19226  98 155
"pat"  19375  80 130
"sue"  14296  80 120
"sue"  14334  88 127
"sue"  14334  96 158
"sue"  14334  84 136
"sue"  14403  86 124
"sue"  14403  88 134
"sue"  14403  90 156
"sue"  14403  86 134
"sue"  14403  90 124
"sue"  14431  80 120
"sue"  14431  80 140
"sue"  14431  80 130
"sue"  15456  80 130
"sue"  15501  80 120
"sue"  15596  80 120
"mary" 14998  90 154
"mary" 15165  91 179
"mary" 15280  91 156
"mary" 15386  81 154
"mary" 15952  77 133
"mary" 15952  80 144
"mary" 16390  91 159
end

有些人一天有多个读数，例如1999年3月31日见Sue。我想选择每天最低的读数。

这是我的代码，它可以帮助我找到一些方法。它笨重且笨拙，我正在寻求帮助以更直接的方式做我想做的事情。

*make flag for repeat observations on same day

sort id eventdate  
by id: gen flag =1 if eventdate==eventdate[_n-1]
by id: gen flag2=1 if eventdate==eventdate[_n+1]
by id: gen flag3 =1 if flag==1 | flag2==1
drop flag flag2

* group repeat observations together

egen group = group(id flag3 eventdate)

* find lowest `sys_bp_copy` value per group

bys group (eventdate flag3): egen low_sys=min(sys_bp_copy)

*remove the observations where the lowest value of `sys_bp`_copy doesn't exist

bys group: gen remove =1 if low_sys!=sys_bp_copy
drop if remove==1 & group !=.

****此问题以及我需要帮助的地方** **

上述方法的问题在于，对于 Sue 来说，她的两次重复读数具有相同的 sys_bp_copy 值。所以我上面的方法让我为她提供了多种解读。

在这种情况下，我想引用 dia_sys_copy 并选择其中的最低值，以帮助我在存在多个读数时为每人挑选一行。代码如下 - 但一定有更简单的方法来做到这一点？

drop flag3 remove group

sort id eventdate
by id: gen flag =1 if eventdate==eventdate[_n-1]
by id: gen flag2=1 if eventdate==eventdate[_n+1]
by id: gen flag3 =1 if flag==1 | flag2==1

egen group = group(id flag3 eventdate)
bys group (eventdate flag3): egen low_dia=min(dia_bp_copy)

bys group: gen remove =1 if low_dia!=dia_bp_copy
drop if remove==1 & group !=.

最佳答案

患者在特定日期的最低收缩压很容易定义:您只需排序并查找每个观察 block 中的最低值即可。

我们可以通过舒张压值打破收缩压的联系来完善定义。那是另一种。在这个例子中，这没有什么区别。

clear
input str4 id int eventdate byte dia_bp_copy int sys_bp_copy
"pat"  15698 100 140
"pat"  16183  80 120
"pat"  19226  98 155
"pat"  19375  80 130
"sue"  14296  80 120
"sue"  14334  88 127
"sue"  14334  96 158
"sue"  14334  84 136
"sue"  14403  86 124
"sue"  14403  88 134
"sue"  14403  90 156
"sue"  14403  86 134
"sue"  14403  90 124
"sue"  14431  80 120
"sue"  14431  80 140
"sue"  14431  80 130
"sue"  15456  80 130
"sue"  15501  80 120
"sue"  15596  80 120
"mary" 14998  90 154
"mary" 15165  91 179
"mary" 15280  91 156
"mary" 15386  81 154
"mary" 15952  77 133
"mary" 15952  80 144
"mary" 16390  91 159
end

bysort id eventdate (sys) : gen lowest = sys[1] 

bysort id eventdate (sys dia) : gen lowest_2 = sys[1] 

egen tag = tag(id eventdate) 

count if lowest != lowest_2 

list id event dia sys lowest* if tag, sepby(id) 

     +-----------------------------------------------------------+
     |   id   eventd~e   dia_bp~y   sys_bp~y   lowest   lowest_2 |
     |-----------------------------------------------------------|
  1. | mary      14998         90        154      154        154 |
  2. | mary      15165         91        179      179        179 |
  3. | mary      15280         91        156      156        156 |
  4. | mary      15386         81        154      154        154 |
  5. | mary      15952         77        133      133        133 |
  7. | mary      16390         91        159      159        159 |
     |-----------------------------------------------------------|
  8. |  pat      15698        100        140      140        140 |
  9. |  pat      16183         80        120      120        120 |
 10. |  pat      19226         98        155      155        155 |
 11. |  pat      19375         80        130      130        130 |
     |-----------------------------------------------------------|
 12. |  sue      14296         80        120      120        120 |
 13. |  sue      14334         88        127      127        127 |
 16. |  sue      14403         86        124      124        124 |
 21. |  sue      14431         80        120      120        120 |
 24. |  sue      15456         80        130      130        130 |
 25. |  sue      15501         80        120      120        120 |
 26. |  sue      15596         80        120      120        120 |
     +-----------------------------------------------------------+

egen 非常有用(在那里披露了各种兴趣)，但这里的主要思想是 by: 定义了观察组，您可以为两个观察值执行此操作或多个变量，而不仅仅是一个——并且还可以控制排序顺序。可以说，大约一半的 egen 是基于这样的想法构建的，但直接使用它们可能是最简单、最好的。

关于grouping - 选择每组的最低值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40744090/

grouping - 选择每组的最低值

上一篇：owl - Protege 中的 Reasoner 无法处理限制/基数

下一篇：php - Symfony 缓存组件 (3.1) 不保存缓存