我正在收集大量数据,这些数据很可能是以下格式:
User 1: (a,o,x,y,z,t,h,u)
除了 u 之外,所有变量都随时间动态变化 - 这用于存储用户名。由于我的“大数据”背景不是很深,所以我想了解的是,当我最终得到我的数组时,它会非常大,大约 108000 x 3500,因为我将对每个时间步进行分析,并将其绘制成图表,我要确定的是一个合适的数据库来管理它。由于这是为了科学研究,我正在研究 CDF 和 HDF5,并基于我在这里阅读的内容 NASA我想我会想使用 CDF。但这是管理此类数据以提高速度和效率的正确方法吗?
最终的数据集将所有用户列为列,行将带有时间戳,因此我的分析程序将逐行读取以解释数据。并进入数据集。也许我应该看看 CouchDB 和 RDBMS 之类的东西,我只是不知道从哪里开始。将不胜感激。
最佳答案
这是一个扩展的评论,而不是一个全面的答案......
恕我直言,如今,108000*3500
大小的数据集并不真正称得上是大数据,除非您省略了诸如 之类的单元>国标
。如果它只是 108000*3500
字节,则只有 3GB 加上零钱。您提到的任何技术都可以轻松应对。我认为您应该根据哪种方法可以加快开发速度而不是加快执行速度来做出选择。
但是如果你想考虑进一步的建议,我建议:
所有这些在学术大数据社区中都有一定的吸引力,并且也开始在该社区之外使用。
关于database - 大数据数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14154814/