hadoop - Cassandra 与 hadoop 集成以提高读取性能

标签 hadoop cassandra

我正在使用 Apache Cassandra 存储大约 1 亿条记录。有一个具有以下规范的单个节点-

RAM-32GB, HDD-2TB, Intel quad core processor.

cassandra 存在读取性能问题。对于某些查询,给出输出大约需要 40 分钟。在搜索如何提高读取性能后,我开始了解以下因素-

Compaction strategy,compression techniques, key cache, increase the heap space, turning off the swap space for cassandra.

进行这些优化后,性能保持不变。在 seraching 之后,我开始考虑将 Hadoop 与 cassandra 集成。这是在 cassandra 中进行查询的正确方法还是我在这里遗漏的任何其他因素? 谢谢。

最佳答案

看来您的数据模型可以改进。 40分钟是不可能的。我在几分钟内下载了 600 万条记录(约 10GB)的所有数据。并认为这是因为我在下载和存储它们的过程中转换数据。琐碎的选择必须花费几毫秒。

是你建的吗on the base of queries that you must do

关于hadoop - Cassandra 与 hadoop 集成以提高读取性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32667316/

相关文章:

cassandra - 如何在 cassandra 中进行同步删除并创建 key 空间?

docker - 空白新 Cassandra-Cluster 中的代币平衡

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL

sql - 在Hive查询中为列添加前导字符和零

java - 未找到请求的操作的编解码器 : [map<varchar, int> <-> java.util.Map];问题 Apache Cassandra

java - Cassandra Datastax 驱动程序 - 连接池

hadoop - 当中间输出不适合 Spark 中的 RAM 时会发生什么

hadoop - 默认情况下,mapreduce程序是否会消耗文件夹中的所有文件(输入数据集)?

hadoop - 如何使 Hadoop MR 只读文件而不是输入路径中的文件夹

cassandra-cli 在批量模式下删除后立即设置,设置丢失