Django ORM 和 SQL 内连接

我正在尝试获取相关列表对象上特定 from_date 和 to_date 范围内的所有 Horse 对象。例如。

Horse.objects.filter(listings__to_date__lt=to_date.datetime,
listings__from_date__gt=from_date.datetime)

据我所知，现在这个数据库查询创建了一个内部连接，然后使我能够根据相关的上市日期找到我所有的马匹对象。

我的问题是这究竟是如何工作的，这可能归结为对内部联接的实际工作方式缺乏理解。此查询是否需要首先“检查”每匹马对象以确定它是否具有相关的列表对象？我想这可能会被证明是非常低效的，因为您可能有 500 万匹马对象而没有相关的列表对象，但您仍然必须先检查每一匹马？

或者我可以从我的 list 开始，然后先做这样的事情:

Listing.objects.filter(to_date__lt=to_date.datetime, 
from_date__gt=from_date.datetime)

然后:

for listing in listing_objs:
    if listing.horse:
        horses.append(horse)

但这似乎也是实现我的结果的一种相当奇怪的方式。

如果有人能帮助我了解查询在 Django 中的工作方式，以及执行此类查询的最有效方法是什么，那将是一个很大的帮助!

这是我当前的模型设置:

class Listing(models.Model):

    to_date = models.DateTimeField(null=True, blank=True)
    from_date = models.DateTimeField(null=True, blank=True)
    promoted_to_date = models.DateTimeField(null=True, blank=True)
    promoted_from_date = models.DateTimeField(null=True, blank=True)

    # Relationships
    horse = models.ForeignKey('Horse', related_name='listings', null=True, blank=True)

class Horse(models.Model):
    created_date = models.DateTimeField(null=True, blank=True, auto_now=True)
    type = models.CharField(max_length=200, null=True, blank=True)
    name = models.CharField(max_length=200, null=True, blank=True)
    age = models.IntegerField(null=True, blank=True)
    colour = models.CharField(max_length=200, null=True, blank=True)
    height = models.IntegerField(null=True, blank=True)

最佳答案

您编写查询的方式实际上取决于您大多数时候想要返回的信息。如果您对马匹感兴趣，请从Horse查询.如果您对列表感兴趣，那么您应该从 Listing 查询.这通常是正确的做法，尤其是当您使用简单的外键时。

您的第一个查询可能是关于 Django 的更好的查询。我使用了稍微简单一些的模型来说明差异。我创建了一个 active字段而不是使用日期时间。

In [18]: qs = Horse.objects.filter(listings__active=True)

In [19]: print(qs.query)
SELECT 
"scratch_horse"."id", 
"scratch_horse"."name" 
FROM "scratch_horse" 
INNER JOIN "scratch_listing" 
ON ( "scratch_horse"."id" = "scratch_listing"."horse_id" ) 
WHERE "scratch_listing"."active" = True

上面查询中的内部连接将确保您只获得有列表的马匹。 (大多数)数据库非常擅长使用连接和索引来过滤掉不需要的行。

如果Listing很小，Horse相当大，那么我希望数据库只查看 Listing 表，然后使用索引来获取 Horse 的正确部分，而无需进行全表扫描(检查每匹马)。您将需要运行查询并检查您的数据库正在做什么。 EXPLAIN(或您使用的任何数据库)非常有用。如果您猜测数据库在做什么，那您可能错了。

请注意，如果您需要访问 listings每个 horse那么每次访问 horse.listings 时都会执行另一个查询. prefetch_related如果您需要访问 listings 可以帮助您，通过执行单个查询并将其存储在缓存中。

现在，您的第二个查询:

In [20]: qs = Listing.objects.filter(active=True).select_related('horse')

In [21]: print(qs.query)
SELECT 
"scratch_listing"."id", 
"scratch_listing"."active", 
"scratch_listing"."horse_id", 
"scratch_horse"."id", 
"scratch_horse"."name" 
FROM "scratch_listing" 
LEFT OUTER JOIN "scratch_horse" 
ON ( "scratch_listing"."horse_id" = "scratch_horse"."id" ) 
WHERE "scratch_listing"."active" = True

这是一个 LEFT 连接，这意味着右侧可以包含 NULL。右边是Horse在这种情况下。如果您有很多没有马的列表，这会表现得很差，因为它会带回每一个事件列表，无论是否与马相关联。你可以用 .filter(active=True, horse__isnull=False) 解决这个问题虽然。

看到我用了select_related ，它连接了表，以便您能够访问 listing.horse而不会引发另一个查询。

现在我可能应该问为什么您的所有字段都可以为空。这通常是一个糟糕的设计选择，尤其是对于 ForeignKeys。您会有与马无关的列表吗？如果不是，则摆脱 null。你会拥有一匹没有名字的马吗？如果不是，则删除 null。

所以答案是，大多数时候做看起来很自然的事情。如果您知道某个特定的表会很大，那么您必须检查查询规划器 (EXPLAIN)，研究在过滤/连接条件上添加/使用索引，或者从表的另一端进行查询关系。

关于Django ORM 和 SQL 内连接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29665739/

Django ORM 和 SQL 内连接

上一篇：attachment - 计算附件数量并在 openerp 7.0 的 TreeView 中显示

下一篇：unit-testing - 如何对没有逻辑的类进行单元测试？