mysql - 如何比较行之间的值并找到响应的平均值？

我有一个 MySQL 表，其中包含用户对是/否投票问题的回答。看起来有点像这样:

| user_id    | poll_id  | response  |
|------------|----------|-----------|
|    111     |    1     |   'yes'   |
|    111     |    2     |   'no'    |
|    111     |    3     |   'no'    |
|    222     |    1     |   'yes'   |
|    222     |    2     |   'yes'   |
|    222     |    3     |   'yes'   |
|    333     |    1     |   'no'    |
|    333     |    2     |   'no'    |
|    333     |    3     |   'no'    |

我想计算每个用户的响应与其他所有用户的响应之间的相似度。因此，用户 111 和用户 222 的相似度为 0.333(因为他们有 3 个相同响应中的 1 个)，用户 111 和用户 333 有 0.666 相似度(因为他们有 3 个相同响应中的 2 个)。

我编写了一个查询，它会为我提供两个指定用户的相同响应的数量:

SELECT  COUNT(*) AS same_count 
FROM    (
            SELECT  response 
            FROM    results 
            WHERE   user_id = 111
        ) AS t1
    ,   (
            SELECT  response 
            FROM    results 
            WHERE   user_id = 222
        ) AS t2 
WHERE   t1.response = t2.response

现在我正在尝试找出一种方法来为所有用户获取该信息，以产生如下结果:

| user_1  |  user_2  |  same_count  |
|---------|----------|--------------|
|  111    |   222    |    0.333     |
|  111    |   333    |    0.666     |
|  222    |   111    |    0.333     |
|  222    |   333    |    0         |
|  333    |   111    |    0.666     |
|  333    |   222    |    0         |

或者，如果可能，没有冗余信息:

| user_1  |  user_2  |  same_count  |
|---------|----------|--------------|
|  111    |   222    |    0.333     |
|  111    |   333    |    0.666     |
|  222    |   333    |    0         |

我的直觉告诉我，有一种方法可以将其作为单个巨大的 MySQL 查询来执行，而不必通过 PHP 中的循环执行一堆查询。谁能指出我正确的方向？

最佳答案

您必须使用列 *poll_id* 和 *user_id* 对同一个表执行完全外部联接。结果将显示两次，为了避免我们需要以这样的方式指定条件，即只有 alias1 表的 user_id 值小于 alias2 表的 user_id 值单独包含在结果集中。

Click here to view the demo in SQL Fiddle.

脚本:

CREATE TABLE poll
(
    user_id     INT         NOT NULL
  , poll_id     INT         NOT NULL
  , response    VARCHAR(10) NOT NULL  
);

INSERT INTO poll (user_id, poll_id, response) VALUES
   (111, 1, 'yes'),
   (111, 2, 'no'),
   (111, 3, 'no'),
   (222, 1, 'yes'),
   (222, 2, 'yes'),
   (222, 3, 'yes'),
   (333, 1, 'no'),
   (333, 2, 'no'),
   (333, 3, 'no');

SELECT      p1.user_id AS user_1
        ,   p2.user_id AS user_2, 
            AVG(CASE 
                    WHEN p1.response = p2.response THEN 1 
                    ELSE 0 
                END) Average_Response
FROM        poll p1
,           poll p2 
WHERE       p1.poll_id = p2.poll_id 
AND         p1.user_id < p2.user_id
GROUP BY    p1.user_id
        ,   p2.user_id;

输出:

USER_1 USER_2 AVERAGE_RESPONSE
------ ------ ----------------
111     222      0.3333
111     333      0.6667
222     333      0

关于mysql - 如何比较行之间的值并找到响应的平均值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10374178/

mysql - 如何比较行之间的值并找到响应的平均值？

上一篇：java - 如何在 Java 中获取 170 万条记录？

下一篇：mysql - 如何只计算前 5 个项目，然后将剩余的项目分组到 'other' bin 下？