<分区>
我对术语“spark”和“sparklyr”完全陌生,所以我的问题可能不太好。我知道当数据无法放入内存或 RAM 时应该使用 spark。如果我连接 master="local"是否意味着我在我的 PC 上本地工作?这有什么好处。例如。我的计算机上有 16 GB 的 RAM,如果我使用 sparklyr,是否可以使用超过 16 GB 的内存?
当连接到服务器时:它是可供所有人使用的公共(public)服务器还是私有(private)服务器...
<分区>
我对术语“spark”和“sparklyr”完全陌生,所以我的问题可能不太好。我知道当数据无法放入内存或 RAM 时应该使用 spark。如果我连接 master="local"是否意味着我在我的 PC 上本地工作?这有什么好处。例如。我的计算机上有 16 GB 的 RAM,如果我使用 sparklyr,是否可以使用超过 16 GB 的内存?
当连接到服务器时:它是可供所有人使用的公共(public)服务器还是私有(private)服务器...
最佳答案
您正处于本地
模式,一切(驱动程序和工作程序)都在您的机器上运行。优势仅用于测试目的/Spark 功能的使用。
除了本地模式,您还可以连接到 Spark 集群:
spark://HOST:PORT
mesos://HOST:PORT
yarn
k8s://HOST:PORT
有关更多详细信息,请查看此 doc
使用集群时,您可以利用集群的核心和 RAM 执行计算(由工作人员完成)。但是,您可以决定在集群上或您的机器上运行驱动程序。最后一点主要取决于使用情况,对于交互模式(笔记本或 REPL),您需要在本地运行驱动程序。
Apache Spark 是一个 Scala 框架。 Sparklyr 是 Spark 的 R 接口(interface)(包),允许 R 用户以方便的方式执行 Spark 计算(例如使用 dplyr)。使用 Spark 的主要优点是执行分布式计算。这意味着能够将不适合内存的大型计算分解为小块,这些小块可以由具有隔离 CPU 和内存的不同进程执行。
关于r - 将 sparklyr 与 master ="local"一起使用有什么好处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53559903/
相关文章:
R:在使用 dplyr Sparklyr/通过 Sparklyr 连接中的管道操作数据时,在 as.numeric() 之后出现 NaN
r - 使用 R 中的 ggplot2.zoo 将线图添加到带有动物园对象的现有绘图中
r - 在 Shiny 的应用程序中,是否存在 downloadHandler() 无法从 rmarkdown::render() 渲染 pdf 的原因?
Apache Zeppelin 上的 R/SparkR : how to set the plot size?