database-design - 遗传变异关系数据库

标签 database-design bioinformatics django-database

我正在尝试在我所在机构的数据库中表示遗传变异数据。我们已经发现了遗传变异,这些变异与它们相关联的是引用等位基因、突变等位基因、染色体、位置、名称、可能的影响、基因、基因中的位置等。

虽然问题上下文有时有用并不是必需的,但我将使用 django 构建它,数据库后端将是 PostgreSQL 或 MySQL(也欢迎在这里提供有关选择的建议,尽管不是问题的主要焦点)

为了正确地表示这些信息,我着手设计一个关系数据库。然而,我在定义最有效的结构时遇到了问题。 我可以这样表示:

变体属于多对一关系中的基因。即一个基因可以有许多变体,但一个变体通常不能跨越多个基因。 (然而,有时这可能发生在大型 CNV 或两个基因重叠的地方,所以可能是多对多关系???)

在个体中也发现了变异。个体具有基因型,这只是变异等位基因的各种组合的两个副本。我完全不确定最好的方法,也许是变体和个体的联合主键,并将基因型记录为突变等位基因的数量(例如 0、1、2)???

所以我的问题是(抱歉所有序言和生物谈话)我们做事的方式是最好的,或者对这三件事进行更好的设计: 变体——我想存储的主要信息,以及基因和个体——对于任何下游分析都是必不可少的。

非常感谢任何建议。再次对这个问题的短暂性质感到抱歉。

最佳答案

好吧,我对基因一无所知,也不会说生物行话。但是,我从您的问题和维基百科中收集了一些建议并提出了这个建议。主要作为建模练习,使用 FCO 方法。所以这里有一些陈述,您应该能够将每个陈述标记为真或假。

  • 基因是一些 DNA 片段的名称。
  • 基因染色体上占据给定的位置
  • 染色体 是一段包含许多基因 的盘绕 DNA。
  • 等位基因是单个基因的多种替代形式之一。
  • 等位基因是一个基因。
  • Variant 是一个DNA 序列
  • 变体跨越基因
  • 变异 跨越等位基因
  • 基因型两个拷贝的等位基因
  • 表型可观察到的特征。
  • 基因型影响表型
  • 一个表型可以受到许多基因型的影响。
  • 一个基因型可能影响许多表型
  • 有很多基因型
  • 有许多观察到的表型
  • 变体可以在中发现。

enter image description here

关于database-design - 遗传变异关系数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11181142/

相关文章:

mysql - 历史/审计表的设计建议

php - 在 PHP 中执行外部 BLAST 程序

django.db.utils.OperationalError : FATAL: database does not exist (postgres/deploy to digitalocean)

html - 数据库 ID 和 HTML ID 之间的链接

database-design - 太分表还是不分表?这就是问题

r - 基于多列折叠 data.table

python - 如何用户输入具有特定扩展名的文件名?

Django ORM 按过滤器排序

python - 在 Django View 中使用数据库

mysql - 如何在其他列中显示 1 列总和