sql - 甲骨文 SQL : Most efficient way to calculate Z-score of grouped data

我有两个表: 数据

DATA_ID  |  SAMPLE_ID  |  ASSAY_ID  |  SIGNAL
101      |  201        |  301       |  2.87964
102      |  201        |  302       |  7.64623
103      |  202        |  301       |  1.98473
...

和样本:

SAMPLE_ID  |  SAMPLE_NAME  |  CATEGORY
201        |  SAMP0001     |  CAT A  
202        |  SAMP0002     |  CAT B
203        |  SAMP0003     |  CAT A
...

SAMPLES 中大约有 20,000 行。对于每个示例，DATA 中大约有 40,000 行。每个 ASSAY_ID 在 DATA 中的每个样本中恰好出现一次。我需要在 SAMPLE 中提取样本子集，并为 DATA 中的每个信号值计算标准/z 分数值，按 ASSAY_ID 分组>。我正在尝试创建一个将被重复调用的存储过程，它将接受单个 ASSAY_ID 值并返回所有的 SAMPLE_ID 和 ZSCORE 对预定义样本子集中的样本数。

给定一组样本信号值 (X = [3.21, 4.56, 1.12, ..])，在这种情况下，标准/z 分数计算为

(X[i] - median(X))/(K * MAD)

其中 K 是比例因子，等于 1.4826，MAD 是中位数调整偏差，等于:

median(|X[i]-median(X)|)

明白了吗？好 :) 现在，使用 SQL 查询执行此计算的最有效方法是什么？执行时间是关键，因为 DATA 中有近十亿行，而且几乎每个 SIGNAL 值都需要计算 z 分数。

这是迄今为止我能想到的最好的查询:

WITH BASE AS (
    SELECT 
        S.SAMPLE_ID,
        D.SIGNAL
    FROM
        DATA D
        JOIN SAMPLES S
            ON D.SAMPLE_ID = S.SAMPLE_ID
    WHERE 
        S.CATEGORY IN ('CAT A', 'CAT B')
        AND D.ASSAY_ID = 12345
        AND S.SAMPLE_NAME NOT IN ('SAMP0003', 'SAMP0005', 'SAMP0008')          
)
SELECT  
    A.SAMPLE_ID,
    (A.SIGNAL-B.MED)/(1.4826*C.MAD) AS ZSCORE
FROM 
    BASE A,
    (
        SELECT MEDIAN(X.SIGNAL) AS MED 
        FROM BASE X
    ) B,
    (
        SELECT MEDIAN(ABS(Y.SIGNAL-YY.MED)) AS MAD 
        FROM BASE Y, 
        (SELECT MEDIAN(SIGNAL) AS MED FROM BASE) YY
    ) C

是否有更有效的方法来执行此查询？

奖励问题:我能否编写一个 SQL 查询，在单次执行中为每个 ASSAY_ID 执行此计算？

最佳答案

你能看看吗:

SELECT ASSAY_ID, SAMPLE_ID, 
       (SIGNAL - MED)/(1.4826F * MAD) AS ZSCORE
  FROM (
        SELECT ASSAY_ID, SAMPLE_ID, SIGNAL, MED,
               MEDIAN(ABS(SIGNAL - MED)) OVER (PARTITION BY ASSAY_ID) AS MAD
          FROM (
                SELECT ASSAY_ID, SAMPLE_ID, SIGNAL,
                       MEDIAN(SIGNAL) OVER (PARTITION BY ASSAY_ID) AS MED
                  FROM DATA    D
                  JOIN SAMPLES S USING (SAMPLE_ID)
                 WHERE S.CATEGORY IN ('CAT A', 'CAT B')
                   AND S.SAMPLE_NAME NOT IN ('SAMP0003', 'SAMP0005', 'SAMP0008')  
                   AND D.ASSAY_ID = 301
               )
       );

是否正确？它更快吗？如果是，只需删除 奖励问题 的 AND D.ASSAY_ID = 301 子句:-)

在物理方面，我会研究信号的数据类型(BINARY_FLOAT 或 BINARY_DOUBLE 据推测比 NUMBER 快)。而且，如果这是一个选项，我会尝试在物理上将化验与分区并置。

关于sql - 甲骨文 SQL : Most efficient way to calculate Z-score of grouped data，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14267522/

sql - 甲骨文 SQL : Most efficient way to calculate Z-score of grouped data

上一篇：nginx - Certbot :ImportError: No module named 'requests. packages.urllib3

下一篇：amazon-web-services - Docker-machine 实例不与外部世界(即 Internet)交谈