我即将开始一个新项目,它基本上是一个报告工具,应该有一个相当大的数据库。
表的数量不会很大(<200),大部分数据(80%)将包含在 20 个表中,所有数据几乎都是插入/只读(无更新)。
估计该表中的数据量将以每分钟 240,000 条记录的速度增长,我们应该至少保留 1 到 3 年的数据,以便能够制作各种报告,管理员可以在线查看报告。
我没有使用大型数据库的第一手经验,所以我想问问那些在这种情况下哪个数据库是最佳选择的人。我知道 Oracle 是安全的选择,但如果有人有 hadoopdb 或 Google 的大表等数据库以外的经验,我会更感兴趣。 请指导我。 提前致谢
最佳答案
甲骨文将变得非常昂贵以扩大规模。 MySQL 将难以扩展。这不是他们的错; RDBMS 对此有点矫枉过正。
让我从一个愚蠢的问题开始:你要用这些数据做什么? “各种报告”可能是很多事情。如果可以离线批量生成这些报告,那么为什么不将数据保存在共享文件系统上的平面文件中呢?
如果它需要更加在线,那么是的,过去 2 年流行的智慧是查看 Mongo、Couch 和 Cassandra 等 NoSQL 数据库。它们更简单、速度更快,可以轻松扩展并提供对数据的更多随机访问。
今年在 NoSQL 上进行分析非常流行。例如,我会看看 Acunu 是如何将分析嵌入到他们的 Cassandra 风格中的:http://www.acunu.com/blogs/andy-twigg/acunu-analytics-preview/
关于database - 如何处理非常大的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9971661/