我正在使用 Apache Cassandra 存储大约 1 亿条记录。有一个具有以下规范的单个节点-
RAM-32GB, HDD-2TB, Intel quad core processor.
cassandra 存在读取性能问题。对于某些查询,给出输出大约需要 40 分钟。在搜索如何提高读取性能后,我开始了解以下因素-
Compaction strategy,compression techniques, key cache, increase the heap space, turning off the swap space for cassandra.
进行这些优化后,性能保持不变。在 seraching 之后,我开始考虑将 Hadoop 与 cassandra 集成。这是在 cassandra 中进行查询的正确方法还是我在这里遗漏的任何其他因素? 谢谢。
最佳答案
看来您的数据模型可以改进。 40分钟是不可能的。我在几分钟内下载了 600 万条记录(约 10GB)的所有数据。并认为这是因为我在下载和存储它们的过程中转换数据。琐碎的选择必须花费几毫秒。
关于hadoop - Cassandra 与 hadoop 集成以提高读取性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32667316/