database - 在数据库列中存储分隔列表真的那么糟糕吗?

标签 database database-design database-normalization

想象一个带有一组复选框的 Web 表单(可以选择其中任何一个或全部)。我选择将它们保存在存储在数据库表的一列中的逗号分隔值列表中。

现在,我知道正确的解决方案是创建第二个表并正确规范化数据库。实现简单的解决方案速度更快,我希望快速获得该应用程序的概念验证,而不必在其上花费太多时间。

我认为在我的情况下节省的时间和更简单的代码是值得的,这是一个合理的设计选择,还是我应该从一开始就将其标准化?

更多上下文,这是一个小型内部应用程序,本质上替换了存储在共享文件夹中的 Excel 文件。我问这个问题也是因为我正在考虑清理该程序并使其更易于维护。其中有些事情我不太满意,其中之一就是这个问题的主题。

最佳答案

除了违反First Normal Form由于重复的值组存储在单个列中,因此逗号分隔的列表还有许多其他更实际的问题:

  • 无法确保每个值都是正确的数据类型:无法防止 1,2,3,banana,5
  • 不能使用外键约束将值链接到查找表;无法强制执行引用完整性。
  • 无法强制唯一性:无法阻止1,2,3,3,3,5
  • 如果不获取整个列表,则无法从列表中删除值。
  • 存储的列表长度不能超过字符串列的长度。
  • 很难搜索列表中具有给定值的所有实体;你必须使用低效的表扫描。可能不得不求助于正则表达式,例如在 MySQL 中:
    idlist REGEXP '[[:<:]]2[[:>:]]'或在 MySQL 8.0 中:idlist REGEXP '\\b2\\b'
  • 很难对列表中的元素进行计数,或进行其他聚合查询。
  • 很难将值连接到它们引用的查找表。
  • 很难按排序顺序获取列表。
  • 很难选择一个保证不会出现在值中的分隔符

为了解决这些问题,您必须编写大量应用程序代码,重新发明 RDBMS 已经提供的更高效的功能。

逗号分隔的列表是错误的,我把它作为我书中的第一章:SQL Antipatterns, Volume 1: Avoiding the Pitfalls of Database Programming .

有时您需要采用非规范化,但如 @OMG Ponies mentions ,这些都是异常(exception)情况。任何非关系“优化”都会使一种类型的查询受益,但会牺牲数据的其他用途,因此请确保您知道哪些查询需要特别处理,以便它们值得非规范化。

关于database - 在数据库列中存储分隔列表真的那么糟糕吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55045491/

相关文章:

php - 不支持的驱动程序 [mysql2] : While using multiple database

java - 以编程方式停止 H2 数据库

database-design - 用户数据的数据仓库——设计Q

relational-database - 第三范式——两个外键之间的传递依赖?

database-design - 外键取决于列内容——如何保证完整性?

python - pandas:规范化 DataFrame

mysql - 将 postgres 表与 mysql 表链接在测试中失败

database - 通用 Oracle 结果表

mysql - 一对多关系的数据库设计

mongodb - 在 Mongo 中存储嵌套类别(或分层数据)的最有效方法?