r - 将 sparklyr 与 master ="local"一起使用有什么好处

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。

关闭 4 年前。

我对术语“spark”和“sparklyr”完全陌生，所以我的问题可能不太好。我知道当数据无法放入内存或 RAM 时应该使用 spark。如果我连接 master="local"是否意味着我在我的 PC 上本地工作？这有什么好处。例如。我的计算机上有 16 GB 的 RAM，如果我使用 sparklyr，是否可以使用超过 16 GB 的内存？

当连接到服务器时:它是可供所有人使用的公共(public)服务器还是私有(private)服务器...

最佳答案

您正处于本地模式，一切(驱动程序和工作程序)都在您的机器上运行。优势仅用于测试目的/Spark 功能的使用。

集群

除了本地模式，您还可以连接到 Spark 集群:

独立集群:spark://HOST:PORT
Mesos:mesos://HOST:PORT
yarn : yarn
Kubernetes:k8s://HOST:PORT

有关更多详细信息，请查看此 doc

使用集群时，您可以利用集群的核心和 RAM 执行计算(由工作人员完成)。但是，您可以决定在集群上或您的机器上运行驱动程序。最后一点主要取决于使用情况，对于交互模式(笔记本或 REPL)，您需要在本地运行驱动程序。

Spark 与 Sparklyr

Apache Spark 是一个 Scala 框架。 Sparklyr 是 Spark 的 R 接口(interface)(包)，允许 R 用户以方便的方式执行 Spark 计算(例如使用 dplyr)。使用 Spark 的主要优点是执行分布式计算。这意味着能够将不适合内存的大型计算分解为小块，这些小块可以由具有隔离 CPU 和内存的不同进程执行。

关于r - 将 sparklyr 与 master ="local"一起使用有什么好处，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53559903/

上一篇：radare2 - 如何使用 radare 获取地址的值(value)

下一篇：arm - QEMU和FVP模型区别

相关文章：

r - Sparkr 将 DF 写入文件 csv/txt

R:在使用 dplyr Sparklyr/通过 Sparklyr 连接中的管道操作数据时，在 as.numeric() 之后出现 NaN

r - 使用 R 中的 ggplot2.zoo 将线图添加到带有动物园对象的现有绘图中

r - 在 Shiny 的应用程序中，是否存在 downloadHandler() 无法从 rmarkdown::render() 渲染 pdf 的原因？

使用 SparkR 运行 R 模型

Apache Zeppelin 上的 R/SparkR : how to set the plot size?

r - 如何使用 spark_apply_bundle

r - 如何将时间戳转换为字符串(不更改时区)？

css - 我们可以将 textInputAddon 中的插件放在 R shiny 的右侧吗？

R:从线性模型或公式变量中提取完整案例/包含的观察结果