apache-spark - Apache Spark 可以用作数据库替代品吗？ (例如替换Mysql)

标签 apache-spark pyspark apache-spark-sql

我需要一个可扩展的数据库解决方案，可以扩展到多个工作节点，并且我遇到了 Apache Spark SQL，它似乎具有非常强大的弹性。我可以用它来替代 Mysql 吗？我尝试过从 DataFrame 创建、读取、更新、删除值，但它似乎不是为此目的而构建的？我(目前)找不到一种更新和行的方法...这几乎就像一旦拥有数据就可以查询数据，但不适合插入数据

我错了吗？我对 Spark 非常陌生，我不想花时间尝试将其变成它不是的东西

如果它不能用作数据库……这是否意味着 Spark 仅用于分析？如果我想要实时信息，我应该使用数据库存储数据，然后将数据集加载到 Spark 中吗？

最佳答案

探索三角洲湖。 Delta Lake 提供酸性交易，您可以在数据湖(如 s3 或 adls)内构建可靠的“数据仓库”。

这意味着您可以对 Delta 表进行更新/删除/插入/合并。

请记住，Spark 是处理和准备层的有力候选者，这意味着您可以批量或流式地从各种来源获取数据，如果需要的话将它们混合在一起，并且您可以使用 Delta Lake 理解您的数据。

但是，服务层有更好的工具可以处理大量并发用户/查询，例如 sql 数据库或 dremio。

关于apache-spark - Apache Spark 可以用作数据库替代品吗？ (例如替换Mysql)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60105479/