假设我有一个包含 10.000 行(代表 10.000 人)和以下列的表格:
id qualification gender age income
当我选择所有具有特定资格的人(比如“管道工”)时,我得到 100 行,具有特定的性别、年龄和收入分布。
我现在要做的是选择某种测试组来检查收入是否受资格或其他属性分布的影响。
这意味着(现在我开始回答我的问题了)我想获得另一组 100 行,具有相同的性别和年龄分布(但资格值不同)。这 100 行当然应该是随机选择的。
我的主要问题是,当我选择随机行时,我不知道如何编写一个 SQL 命令来处理分布(在这种情况下,这当然可以而且也许应该被视为概率)。
提前致谢!
最佳答案
您似乎正在尝试解决与 this extremely thorny problem 密切相关的问题.
该 wiki 页面描述了多种检测数据库相关性的方法,包括对先前 pg-hacker 讨论 (here's another) 的引用、各种(被拒绝的)补丁提案以及讨论该主题的科学论文。
如果这听起来太棘手,我会支持 Catcall 的 pl/r 建议。或其他适用的 pl,就此而言。
顺便说一句,您可能会发现 pg-kmeans 也很有用:
http://pgxn.org/dist/kmeans/doc/kmeans.html
以及 PostStat(我自己从未尝试过):
关于sql - 选择 "similar"组 - 从哪里开始概率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6677603/