apache-spark - Apache Ignite 和 Tachyon 有什么区别

标签 apache-spark ignite alluxio

我是 Apache Ignite 的新手,对于 Ignite 和 spark 的集成,看起来 Ignite 提供了一个内存层,数据将在 spark 应用程序中存在,这是 Tachyon 作为内存文件系统提供的功能。
所以,我的问题是对于内存文件系统(IGFS 表示 ignite),Ignite 和 Tachyon 有什么区别?两者之间的优缺点是什么?

谢谢!

最佳答案

Apache Ignite 是一个包含很多组件的平台,例如(不限于):

  • 一个计算引擎,允许您在 fork-join 模型中运行分布式计算(不依赖于 Hadoop 或 Spark)
  • 一种分布式 JSR-107 兼容键值存储,具有各种持久性选项,能够针对您的数据运行索引 SQL 查询,并且从 Ignite 1.8 开始,使用 DML 更新您的数据
  • 分布式容错服务,允许您在集群中运行固定数量的后台进程
  • IGFS,分布式内存文件系统
  • Hadoop加速器组件
  • Spark RDD 集成允许您对 Spark 任务的结果进行中间存储
  • 分布式事件、消息传递等...

  • 如果我们查看 Ignite-Spark 集成,我会关注的一项主要功能是运行索引 SQL 查询的能力。与大型 RDD 上的 Spark 相比,这可能会显着提高查询的性能。

    另一方面,Tachyon 是一个内存文件系统,所以我会说 Tachyon 本身与 IGFS 相比非常接近。

    关于apache-spark - Apache Ignite 和 Tachyon 有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40990350/

    相关文章:

    java - 使用 Spark java 从 Alluxio 读取多个文件很慢

    apache-spark - 默认情况下,spark 中的缓存内存限制是多少?

    java - Apache Ignite Client重新启动方案

    java - Kubernetes 上的 Apache Ignite 使用 TcpDiscoverySharedFsIpFinder : the cluster seems to disintegrate

    c# - OData 异常已超出 Top 查询的 '0' 限制

    java - Alluxio master动态地有详细的输出是正常的吗

    scala - Tachyon on Dataproc Master 复制错误

    scala - 如何过滤掉 spark 数据框中的 bool 字段?

    hive - 为什么 Spark SQL 使用来自 Hive 的 hive-site.xml 会失败并显示 "NumberFormatException: For input string: "1s""?

    scala - Spark 结构化流多个 WriteStreams 到同一个接收器