database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操作

我隐含地把它变成了一个社区维基，因为答案可能非常广泛。我正在与一家初创公司合作以实现以下目标。

在医学研究中，患者的医疗记录可以包含关于患者特定诊断的无限量数据，例如吸烟者患肺癌的几率更高，但这并不一定意味着不吸烟者也会患肺癌。我的目标是创建/使用可以处理此类参数的数据库模型。

现在，我还必须想办法对这些参数化数据进行数据挖掘，以创建统计数据，例如查看所有患有肺癌的 40 岁女性的趋势。该报告可以是通用的(图表、表格等)，医生可以在其中查看趋势或分析可行的可能解决方案....

我的问题是: 1) 哪些数据库系统允许参数化后端存储(例如 Cassandra)，可以在 Java 中轻松使用，并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录。

2) 我可以使用哪些算法或 AI 技术进行数据挖掘？是否有任何采矿技术可以帮助我做到这一点？

PS Google Analytics 如何处理参数化数据？
PPS 参数化数据是具有键的数据，数据可以是值，另一个键值对，值列表，集合参数化数据(有组织的，无组织的)

我期待有启发性的答案! :-D

最佳答案

我只会尽量回答你的第一个问题。

Cassandra 是一个键值数据存储(在您的情况下参数化)。如果您使用 Cassandra，则需要更高的计算时间来导出复杂的报告。原因是 - 它以原始格式存储数据。如果您想扩展得非常大，像 NOSQL 数据库这样的 Cassandra 就很好。他们是eventually consistent以及对数据复制和延迟的妥协。

在您作为患者的情况下，可以无限地拥有任何形式的数据，请尝试适应三重存储模型(语义 Web 框架，如 Jena、OpenSesame 等)。它们允许您拥有糟糕的数据结构，并且可以在运行时进行塑造。此外，它们的查询引擎(SPARQL、SeRQL)为您提供了比 NOSQL 存储(如 Cassandra)更强大的功能，但这些查询功能明显不如 RDBMS。

关于database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3231322/

database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操作

上一篇：android - 如何在 Android 中填充测试数据库？

下一篇：php - 从一个字段设置数据库中的多个字段

database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操​​作

上一篇：android - 如何在 Android 中填充测试数据库？

下一篇：php - 从一个字段设置数据库中的多个字段

database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操作