mysql - Cassandra + Spark 与 MySQL + Spark

标签 mysql cassandra apache-spark

我必须在三层架构上设计一个软件:

  • 定期轮询数据源(例如 ftp)以注入(inject)数据库的进程
  • 数据库
  • 用于数据处理的 Spark

我的数据很简单,非常适合存储在单个 RDMS 表中,或者我可以将其存储在 Cassandra 中,然后定期需要 Spark 对整个数据集运行一些机器学习算法。

哪个数据库更适合我的用例?具体来说,我不需要在多个节点上进行扩展,我认为主要的根本问题是:

  • 在简单表上的 Cassandra 或 MySQL 上的简单查询 (SELECT) 更快吗?

  • Cassandra 的 Spark 连接器是否受益于它的某些功能,使其比 SQL 连接器更快?

最佳答案

如果数据大小小于2Tb,可以使用MySQL。在 MySQL 表上选择将比在 Cassandra 中更灵活。 当您的数据存储需求跨单机时,您应该使用 Cassandra。 Cassandra 需要为每个查找或选择场景进行仔细的数据建模。

您可以使用下面建议的方法进行 MySQL Spark 集成

How to work with MySQL and Apache Spark?

关于mysql - Cassandra + Spark 与 MySQL + Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29027359/

相关文章:

mysql - 每月总用户数

php - 检查 mySQL/PHP 条目是否存在而不会超时?

java - 如何回滚一次插入到 3 个表中的数据?

hadoop - Cassandra 与 hadoop 集成以提高读取性能

hadoop - Apache Spark YARN 模式启动时间过长(超过 10 秒)

mysql - 我应该使用哪种存储创建日期、更新、创建者的方法...

java - Cassandra 读/写性能 - 高 CPU

mongodb - nosql 是像评论系统这样的多层次论坛的正确工具吗?

windows - Pyspark 上 saveAsTextFile() 中命令字符串异常中的(空)条目

hadoop - Spark 元组获取每个键的详细信息/rdd