sql - 在多个表中存储数据值与通过查询访问相同的值

标签 sql database sqlalchemy

我设计了我的数据库表,其中多个表存储一个值,所有这些都可以通过对一个表的查询来实现。

我的问题是,从不存储重复数据并始终查询,或者多次存储小值以减少所需的查询次数,这会被认为是更好的做法吗?

对于上下文,我正在构建一个 Python 应用程序,它使用 SQLAlchemy 和 SQLite 来测验韩语问题。

我有 User 、 Quiz 和 Question 类。

关于测验问题,问题的值是 num_correct,num_wrong。

基本上我有一个问题表,通过 quiz_id 存储与测验相关的所有问题。每个问题都有一个“正确”列,其中存储一个 bool 值,指示该问题是否已正确回答。

在我的“测验”表中,我有 num_correct/num_wrong 列,这些列是关于该测验已回答的问题。

在我的“用户”表中,我还有 num_correct/num_wrong 列,关于他们一直以来的正确和错误的总答案。

我意识到要获取“quiz”中的值,我可以查询“questions”表并获取“user”中的值,我也可以这样做。

在这种情况下(一般情况下),考虑到最佳实践,哪种策略是首选?

我尝试了很多谷歌搜索,但问题的措辞有点棘手。

最佳答案

重复数据问题在关系数据库中是一个复杂的问题。如果您的应用程序正在进行数据修改,那么重复的数据会导致同步问题——数据需要在多个地方更新。

由于多种原因,这很糟糕:

  • 更新单项信息需要进行多项更改。
  • 多个更改可能会不同步,这意味着查询将不会看到一致的数据。
  • 更改数据库结构(例如添加新表)可能相当麻烦。

数据库确实通过 ACID 属性、事务和触发器支持此功能。但是,它们会增加开销。一般来说,这种重复是出于必要(即性能)而不是预先添加的。因此,人们强烈偏好规范化数据模型,其中信息在频繁更新时仅存储一次。

另一方面,一些数据库主要用于查询目的。这些数据库通常是非规范化的——而且确实如此。例如,客户表可能包含许多不同维度的摘要,从数十个基础表中收集信息。

这不仅简化了查询,而且编码了业务逻辑。使用数据的一个主要问题是不同的人对事物的定义略有不同——一年的客户是 365 天前开始的吗?去年同一天开始的人?已经工作了 12 个月的人?标准化分析表提供了答案。

你的情况似乎更属于第一种情况。您正在进行更新并考虑预先存储摘要。我会阻止你这样做。只需编写汇总数据所需的查询即可。索引和分区很可能会提供您需要的所有性能。

如果您预先知道您将有数百万用户参加包含数十个问题的数百个测验,那么您可能需要预先考虑性能优化。但是对于成千上万的用户来说,他们只需要几十个问题就可以参加一些测验,从一个简单的数据模型开始,然后在证明它有效之后使其变得更复杂。

关于sql - 在多个表中存储数据值与通过查询访问相同的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53966636/

相关文章:

sql - 在两个表之间使用 MAX 聚合

Oracle 数据库中的 REGEXP 挫败感

python - 我可以检索 macaddr8 列作为数字吗?

mysql - 如何优化需要 10 秒才能获取结果的 MySQL 查询

SQL:带条件的选择查询

sql - 数据库事务是否会阻止竞争条件?

java - 使用 jdbc 将值插入数据库

python - 如何使用 SQLAlchemy TypeDecorators 编译原始 SQL

python - SQLAlchemy + MySQL - 在原始查询中将表名作为参数传递

sql - 忽略 WHERE 子句中的特殊字符