我不是 SQL 方面的专家,但我最近开始将 Python
中的 sqlite3
模块与数据库以及 pandas
及其 read_sql_query()
它们是一个非常好的工具。
现在,比如说,我有一个看起来像这样的数据库(我只是为了演示目的而编造的)。
age iq married
===============
91 77 0
54 124 1
31 124 0
32 95 0
74 34 0
18 56 0
43 42 0
78 56 0
91 77 1
任务是,这可能会让人有些困惑。我想选择所有与 married=1
具有相同 IQ 的行(人)(包括已婚人士自己)。所以我希望结果看起来像这样:
age iq married
===============
91 77 0
54 124 1
31 124 0
91 77 1
即使在一般情况下,假设我更加严格,想要选择所有与已婚者具有相同 iq
和相同 age
的人.在这种情况下,结果将如下所示:
age iq married
===============
54 124 1
91 77 0
91 77 1
可能还有大量其他列可以忽略或不能忽略。
现在我当然可以迭代地做到这一点,首先选择已婚的,然后比较 (age,iq)
的元组,但这有点无聊。问题是,是否有一种巧妙的方法可以使用 pandas.read_sql_query()
一次完成此操作?
简而言之,我正在尝试做这样的事情(我知道这只是选择已婚的,但这只是一个例子):
import sqlite3
import pandas as pd
connection = sqlite3.connect('people.db')
mydata = pd.read_sql_query(
"""
SELECT *
from People
WHERE married=1 ... *some magic here*
GROUP BY *foo*
HAVING *bar*
""", connection)
我真的无法想出任何“魔法”来让它做我想做的事(可能是因为对所有 SQL 命令和条件的了解不足)。也许有一种方法可以使用嵌套的 SELECT
命令和一些类似 IN
的东西来做到这一点,但我不太确定。
我觉得必须有一个简单的方法(或者也许我错了,迭代更容易),所以我问社区!
最佳答案
一种方法是在 WHERE
子句中使用 EXISTS
条件,断言给定的 IQ 值至少与其他已婚记录匹配:
SELECT age, iq, married
FROM People p1
WHERE EXISTS (SELECT 1 FROM People p2 WHERE p1.iq = p2.iq AND p2.married = 1);
Demo
EXISTS
子查询使用以下索引可能会有更好的性能:
CREATE INDEX idx ON People (iq, married);
这将允许在表中快速查找给定的 iq
值,同时检查 married
status.m
关于python - 让一个令人困惑的复杂 mysql 请求工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57302214/