amazon-ec2 - 使用 Spark 进行 Cassandra 阅读基准测试

标签 amazon-ec2 cassandra apache-spark benchmarking spark-cassandra-connector

我正在对 Cassandra 的阅读性能进行基准测试。在测试设置步骤中,我创建了一个包含 1/2/4 个 ec2 实例和数据节点的集群。我编写了 1 个包含 1 亿个条目的表(~3 GB csv 文件)。然后,我启动一个 Spark 应用程序,该应用程序使用 Spark-cassandra-connector 将数据读取到 RDD 中。

但是,我认为行为应该如下:Cassandra 使用的实例越多(Spark 上的实例数量相同),读取速度就越快!通过写入,一切似乎都是正确的(如果集群大 2 倍,速度会快 2 倍)。

但是:在我的基准测试中,1 实例集群的读取速度总是比 2 或 4 实例集群快!!!

我的基准测试结果:

集群大小 4:写入:1750 秒/读取:360 秒

集群大小 2:写入:3446 秒/读取:420 秒

集群大小 1:写入:7595 秒/读取:284 秒


额外尝试 - 使用 CASSANDRA-STRESS 工具

我在 Cassandra 集群(大小为 1/2/3/4 节点)上启动了“cassandra-stress”工具,结果如下:

Clustersize    Threads     Ops/sek  Time
1              4           10146    30,1
               8           15612    30,1
              16           20037    30,2
              24           24483    30,2
             121           43403    30,5
             913           50933    31,7
2              4            8588    30,1
               8           15849    30,1
              16           24221    30,2
              24           29031    30,2
             121           59151    30,5
             913           73342    31,8
3              4            7984    30,1
               8           15263    30,1
              16           25649    30,2
              24           31110    30,2
             121           58739    30,6
             913           75867    31,8
4              4            7463    30,1
               8           14515    30,1
              16           25783    30,3
              24           31128    31,1
             121           62663    30,9
             913           80656    32,4


结果:使用 4 或 8 个线程时,单节点集群与大型集群一样快甚至更快!!!



结果如图: enter image description here
数据集是集群大小 (1/2/3/4),x 轴是线程,y 轴是每秒操作数。

--> 这里的问题:这些结果是集群范围的结果还是这是对本地节点的测试(因此只有一个环实例的结果)???

谁能解释一下吗?谢谢!

最佳答案

我使用在每个 Cassandra 节点上运行的 Spark Worker 进行了类似的测试。

使用包含 1500 万行(约 1.75 GB 数据)的 Cassandra 表,我运行了一个 Spark 作业,从表中创建一个 RDD,并将每行作为字符串,然后打印行数计数。

这是我得到的时间:

1 C* node, 1 spark worker - 1 min. 42 seconds
2 C* nodes, 2 spark workers - 55 seconds
4 C* nodes, 4 spark workers - 35 seconds

因此,当 Spark 工作线程与 C* 节点位于同一位置时,它似乎可以很好地随节点数量进行扩展。

如果您的工作人员不与 Cassandra 共置,您将强制所有表数据通过网络传输。这会很慢,也许在您的环境中是一个瓶颈。如果将它们放在一起,那么您将受益于数据局部性,因为 Spark 将从每台机器本地的 token 创建 RDD 分区。

您可能还存在其他一些瓶颈。我不熟悉 EC2 及其提供的功能。希望它有本地磁盘存储而不是网络存储,因为 C* 不喜欢网络存储。

关于amazon-ec2 - 使用 Spark 进行 Cassandra 阅读基准测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31311062/

相关文章:

apache-spark - 如何使用 Zookeeper 为 HA 设置 Spark?

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

amazon-web-services - 亚马逊ec2非法指令Asterisk

node.js - NodeJs Amazon Api 和 aws

cassandra - NoSQL 中的先读后写是什么?

scala - 无法从 Spark 连接到 Cassandra(接触点包含多个数据中心)

java - 非常大的选择语句期间的 JDBC 错误 "Lost Connection"

Cassandra 数据模型 - 1 个 SCF 或多个 CF

scala - Spark:ForeachRDD,跳过行引发任务不可序列化(scala闭包)

java - 如何将 over rows 与 Spark 和 Java 集成?