r - 将 sparklyr 与 master ="local"一起使用有什么好处

标签 r sparkr sparklyr

<分区>

我对术语“spark”和“sparklyr”完全陌生,所以我的问题可能不太好。我知道当数据无法放入内存或 RAM 时应该使用 spark。如果我连接 master="local"是否意味着我在我的 PC 上本地工作?这有什么好处。例如。我的计算机上有 16 GB 的 RAM,如果我使用 sparklyr,是否可以使用超过 16 GB 的内存?

当连接到服务器时:它是可供所有人使用的公共(public)服务器还是私有(private)服务器...

最佳答案

您正处于本地模式,一切(驱动程序和工作程序)都在您的机器上运行。优势仅用于测试目的/Spark 功能的使用。

集群

除了本地模式,您还可以连接到 Spark 集群:

  • 独立集群:spark://HOST:PORT
  • Mesos:mesos://HOST:PORT
  • yarn : yarn
  • Kubernetes:k8s://HOST:PORT

有关更多详细信息,请查看此 doc

使用集群时,您可以利用集群的核心和 RAM 执行计算(由工作人员完成)。但是,您可以决定在集群上或您的机器上运行驱动程序。最后一点主要取决于使用情况,对于交互模式(笔记本或 REPL),您需要在本地运行驱动程序。

Spark 与 Sparklyr

Apache Spark 是一个 Scala 框架。 Sparklyr 是 Spark 的 R 接口(interface)(包),允许 R 用户以方便的方式执行 Spark 计算(例如使用 dplyr)。使用 Spark 的主要优点是执行分布式计算。这意味着能够将不适合内存的大型计算分解为小块,这些小块可以由具有隔离 CPU 和内存的不同进程执行。

关于r - 将 sparklyr 与 master ="local"一起使用有什么好处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53559903/

相关文章:

r - Sparkr 将 DF 写入文件 csv/txt

R:在使用 dplyr Sparklyr/通过 Sparklyr 连接中的管道操作数据时,在 as.numeric() 之后出现 NaN

r - 使用 R 中的 ggplot2.zoo 将线图添加到带有动物园对象的现有绘图中

r - 在 Shiny 的应用程序中,是否存在 downloadHandler() 无法从 rmarkdown::render() 渲染 pdf 的原因?

使用 SparkR 运行 R 模型

Apache Zeppelin 上的 R/SparkR : how to set the plot size?

r - 如何使用 spark_apply_bundle

r - 如何将时间戳转换为字符串(不更改时区)?

css - 我们可以将 textInputAddon 中的插件放在 R shiny 的右侧吗?

R:从线性模型或公式变量中提取完整案例/包含的观察结果