database - 大数据数据库

标签 database hdf5 common-data-format large-data

我正在收集大量数据,这些数据很可能是以下格式:

User 1: (a,o,x,y,z,t,h,u)

除了 u 之外,所有变量都随时间动态变化 - 这用于存储用户名。由于我的“大数据”背景不是很深,所以我想了解的是,当我最终得到我的数组时,它会非常大,大约 108000 x 3500,因为我将对每个时间步进行分析,并将其绘制成图表,我要确定的是一个合适的数据库来管理它。由于这是为了科学研究,我正在研究 CDF 和 HDF5,并基于我在这里阅读的内容 NASA我想我会想使用 CDF。但这是管理此类数据以提高速度和效率的正确方法吗?

最终的数据集将所有用户列为列,行将带有时间戳,因此我的分析程序将逐行读取以解释数据。并进入数据集。也许我应该看看 CouchDB 和 RDBMS 之类的东西,我只是不知道从哪里开始。将不胜感激。

最佳答案

这是一个扩展的评论,而不是一个全面的答案......

恕我直言,如今,108000*3500 大小的数据集并不真正称得上是大数据,除非您省略了诸如 之类的单元>国标。如果它只是 108000*3500 字节,则只有 3GB 加上零钱。您提到的任何技术都可以轻松应对。我认为您应该根据哪种方法可以加快开发速度而不是加快执行速度来做出选择。

但是如果你想考虑进一步的建议,我建议:

  1. SciDB
  2. Rasdaman , 和
  3. Monet DB

所有这些在学术大数据社区中都有一定的吸引力,并且也开始在该社区之外使用。

关于database - 大数据数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14154814/

相关文章:

android - 如何为同一键的多个值构造 URI 查询?

database - 如何在 cassandra 中对表进行建模以根据 where 条件进行选择

php - 从 3 个不同的 mysql 表中选择数据

database - 由于这种模式,在同一个结构中使用事务和简单的数据库连接我该怎么办?

python - 尝试运行 OpenMMD 时出现另一个 "h5py is running against HDF5 1.10.5 when it was built against 1.10.4"错误

java - 将 HDF4 数组转储到 ascii,并具有源文件的完全精度

python - 在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

matlab - 'cdfread' 不读取 .cdf 文件 Matlab