r - SparkR 和 sparklyr 之间导入 Parquet 文件所需的时间差异

标签 r parquet databricks sparkr sparklyr

我正在使用 SparkR 在数据块中导入 Parquet 文件和 sparklyr .data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)data1 = sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")导入的时间差很大:SparkR 为 6 秒对比 sparklyr 的 11 分钟!
有没有办法减少在 sparklyr 中花费的时间? ?我比较熟悉dplyr语法,因此 sparklyr以及。

最佳答案

默认 sparklyr::spark_read_parquet缓存结果 ( memory = TRUE )。
比较以下缓存结果:

SparkR::cache(SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE))

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")
这对于未缓存的:
SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)`

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*", memory = FALSE)

关于r - SparkR 和 sparklyr 之间导入 Parquet 文件所需的时间差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64058553/

相关文章:

csv - 有没有一种简单的方法可以将 Parquet 文件直接加载到 Cassandra 中?

java - 如何在没有 spark 或框架的情况下将 parquet 文件保存在 hdfs 中?

azure - 在 Databricks 的 DBFS 上安装 ADLS 时出错(错误 : NullPointerException)

oracle - 我在尝试使用 cx_Oracle 从 Azure Databricks Notebook 连接 Oracle 时遇到错误

regex - 将选项卡上的某些空格替换为-定界符

r - ZIP 和 ZINB 模型在对数据进行子集化和分解时出现错误

r - 直方图中条形图一角的数字,如何让它们在条形图下方居中?

r - 在起点和终点之间过滤

hadoop - 如何使用fileStream流式拼花地板文件?

azure - maxRecordsPerFile 在 Azure Data Bricks 中不起作用