database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操​​作

标签 database algorithm architecture data-structures

我隐含地把它变成了一个社区维基,因为答案可能非常广泛。 我正在与一家初创公司合作以实现以下目标。

在医学研究中,患者的医疗记录可以包含关于患者特定诊断的无限量数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着不吸烟者也会患肺癌。我的目标是创建/使用可以处理此类参数的数据库模型。

现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有患有肺癌的 40 岁女性的趋势。该报告可以是通用的(图表、表格等),医生可以在其中查看趋势或分析可行的可能解决方案....

我的问题是: 1) 哪些数据库系统允许参数化后端存储(例如 Cassandra),可以在 Java 中轻松使用,并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录。

2) 我可以使用哪些算法或 AI 技术进行数据挖掘?是否有任何采矿技术可以帮助我做到这一点?

PS Google Analytics 如何处理参数化数据?
PPS 参数化数据是具有键的数据,数据可以是值,另一个键值对,值列表,集合参数化数据(有组织的,无组织的)

我期待有启发性的答案! :-D

最佳答案

我只会尽量回答你的第一个问题。

Cassandra 是一个键值数据存储(在您的情况下参数化)。如果您使用 Cassandra,则需要更高的计算时间来导出复杂的报告。原因是 - 它以原始格式存储数据。如果您想扩展得非常大,像 NOSQL 数据库这样的 Cassandra 就很好。他们是eventually consistent以及对数据复制和延迟的妥协。

在您作为患者的情况下,可以无限地拥有任何形式的数据,请尝试适应三重存储模型(语义 Web 框架,如 Jena、OpenSesame 等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行塑造。此外,它们的查询引擎(SPARQL、SeRQL)为您提供了比 NOSQL 存储(如 Cassandra)更强大的功能,但这些查询功能明显不如 RDBMS。

关于database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操​​作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3231322/

相关文章:

.net - 确定 Ado.net 中的字符串文字转义字符

php - 当数组值与数据库值匹配时如何重定向页面

algorithm - 确定数据集是否近似正弦波

c++ - 将 n 位从 8 位数组复制到 64 位整数?

java - EJB 中的 Facade 与基于 Spring 的 Web 应用程序中的服务相同吗

c++ - 二叉树数据存储实现

python - 如何将我的 Flask 应用程序连接到我的 SQLite3 数据库?

sql - 比较 2 列直到第一列 "."

WPf、MEF 架构设计

java - 应用架构设计问题