hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ?

标签 hadoop cassandra

来自 MongoDB 的背景,我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。

考虑在 Cassandra 中对同一概念建模,是否值得做同样的事情并根据时间段创建多个表?所以也许每周一次。

是否有任何性能提升?

由于我对 Hadoop 集成的研究,我也问这个问题,我可能只想映射/减少特定几周内有值(value)的数据,而不是所有数据,据我所知,这是最好的方法隔离我们要映射的数据。

在此先感谢您对此的任何意见。

最佳答案

这不是必须的。但是,请务必注意,您不应在 Cassandra 中使用二级索引,您应该对数据进行建模以匹配您正在执行的查询。

如果您经常希望每周执行一次操作,您可能希望按周对数据进行分桶。即每个分区有1周的数据。 (一个分区可以包含多行)

您可能会发现观看几个月前拍摄的 Cassandra 介绍视频很有帮助:https://www.youtube.com/watch?v=W45Ysb9b6oE

关于hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26338280/

相关文章:

mongodb - CAP 背景下的 Mongo 和 Cassandra?

scala - 如何使用 chill-avro 在 Spark 中加载 Avro GenericRecord?

c++ - 使用 thrift 和 cassandra 编译 C++ 程序

python - 如何通过 pyspark/hadoop/etc 提高程序的速度?

java - 如何在 Hadoop MapReduce 中实现组合器?

python - 如何将日期时间插入 Cassandra 1.2 时间戳列

java - Astyanax 客户端中 NodeDiscoveryType 作为 TOKEN_AWARE 的含义是什么?

cassandra - ScyllaDB/Cassandra 的复制因子高于 CL=QUORUM 的节点总数

hadoop - hive 中的第一个()

mysql - 如何自动化 Hive 查询