sql - 如何避免数据库中出现 NULL,同时还代表缺失数据?

标签 sql database database-design schema data-modeling

SQL and Relational Theory (C.J. Date, 2009) 第 4 章提倡避免重复行,也避免在我们存储的数据中使用 NULL 属性。虽然我可以轻松避免重复行,但我正在努力了解如何在不使用 NULL 的情况下对数据进行建模。以下面的例子为例 - 这有点来自工作。

我们有一个artist 表,其中有一个gender 列。这是 gender 表的外键。然而,对于某些艺术家,我们不知道他们的性别——例如,我们得到了一份没有艺术家描述的新音乐列表。如何在不使用 NULL 的情况下表示此数据?我看到的唯一解决方案是向 gender 表添加一个新的性别“未知”。

虽然我非常喜欢这本书,但当本章结束时我真的很失望:

Of course, if nulls are prohibited, then missing information will have to be handled by some other means. Unfortunately, those other means are much too complex to be discussed in detail here.

这真是一种耻辱 - 因为这是我等待阅读的解决方案!有一个阅读附录的引用,其中有很多出版物可供阅读,但在我开始阅读这些之前,我希望能有更多的脚踏实地的总结。


一些人评论说他们不明白我为什么要避免“NULL”,所以我会再次引用这本书。进行以下查询:

SELECT s.sno, p.pno
  FROM s, p
 WHERE s.city <> p.city
    OR p.city <> 'Paris'

现在,以 s.city 为伦敦,p.city 为巴黎为例。在本例中,伦敦 <> 巴黎,因此查询为真。现在假设 p.city 不是巴黎,实际上是 xyz。在这种情况下,(London <> xyz) OR (xyz <> Paris) 也为真。因此,给定任何数据 - 这个查询都是正确的。但是,如果 xyz 为“NULL”,则情况会发生变化。在这种情况下,这两个表达式既不是 True 也不是 False,它们实际上是 Unknown。在这种情况下,由于结果未知,您将不会返回任何行。

从 2 值逻辑到 3 值逻辑的转变很容易引入这样的错误。事实上,我刚刚在工作中介绍了一个激发这篇文章的动机。我想要 type != 0 的所有行但是,这实际上最终匹配 type == 0 OR type IS NULL - 令人困惑的行为。

future 是否使用或不使用 NULL 对我的数据进行建模尚不清楚,但我很好奇其他解决方案是什么。 (我也一直认为,如果您不知道,则应该使用 NULL)。

最佳答案

祝你好运,消除空值。我从不允许在我的任何数据库中使用 Null。

当然,如果禁止空值,则必须通过其他方式处理丢失的信息。不幸的是,那些其他方法过于复杂,无法在此处详细讨论。

其实一点也不难。共有三种选择。

  1. 这是一篇关于 How To Handle Missing Information Without Using NULL 的论文由 H Darwen 撰写,这可能有助于您解决问题。

    1.1。第六范式就是答案。但是您不必将您的整个 数据库规范化为 6NF。对于可选的每一列,您需要一个主表之外的子表,其中只有 PK,这也是 FK,因为它是 1::0-1 关系。除了 PK,唯一的列是可选列。

    看看这个Data Model ;第 4 页的 AssetSerial 是一个经典案例:并非所有的Assets 都有 SerialNumbers;但是当他们这样做时,我希望他们存储它们;更重要的是我想确保它们是独一无二的。

    (For the OO people out there, incidentally, that is a three level class diagram in Relational notation, a "Concrete Table Inheritance", no big deal, we've had it fro 30 years.)

    1.2。对于每个这样的表,使用 View 提供表的 5NF 形式。当然,使用 Null(或适用于该列的任何值)来标识任何行的列缺失。但不要通过 View 更新。

    1.3 不要使用直连接来抓取 6NF 列。也不要使用外部连接(并让服务器为缺失的行填充 Null)。使用子查询来填充列,并指定您希望为缺失值返回的值(除非您有 Oracle,因为它的子查询处理甚至比它的集合处理更糟糕)。例如。只是一个例子。您可以将数字列转换为字符串,并对缺失的行使用“Missing”。

当你不想走那么远时(6NF),你还有两个选择。

  1. 您可以使用 Null 替代。我将 CHAR(0) 用于字符列,将 0 用于数字。但我不允许 FK 这样做。显然,您需要一个超出正常数据范围的值。这不允许三值逻辑。

  2. 除了 (2) 之外,对于每个 Nullable 列,您还需要一个 bool 指示符。对于 Sex 列的示例,指示器类似于 SexIsMissingSexLess(抱歉)。这允许非常严格的三值逻辑。那 5% 中的许多人喜欢它,因为数据库保持在 5NF(和更少的表);缺少信息的列加载了从未使用过的值;它们仅在 Indicator 为 false 时使用。如果您有一个企业数据库,您可以将其包装在一个函数中,并始终使用 UDF,而不是原始列。

当然,在所有情况下,您都无法避免编写处理缺失信息所需的代码。无论是 ISNULL(),还是 6NF 列的子查询,还是在使用值之前要检查的 Indicator,还是 UDF。

如果 Null 具有特定含义... 那么它就不是 Null!根据定义,Null 是未知值。

关于sql - 如何避免数据库中出现 NULL,同时还代表缺失数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4336687/

相关文章:

sql - Oracle to_date,从 MM-DD-YYYY 中减去 DDMMYY

sql - GraphQL 数据库设计模式

sql - 如何在 Sql 中设计 oauth 2.0 访问 token 字段?

sql - 从 PostgreSQL 表中选择数组的 JSON 对象

database - 正常化;如何明智地确定一个字段的存在是否依赖于主要属性?

database - xampp phpmyadmin,格式参数不正确

android - 云数据库和Android应用程序

mysql - 如何高效设计多列表应用的数据库

php - MySql Tinytext vs Varchar vs Char

mysql - 在 MySQL 中将日期存储为 unix 时间戳或 TIMESTAMP 数据类型?