r - SparkR 和 sparklyr 之间导入 Parquet 文件所需的时间差异

标签 r parquet databricks sparkr sparklyr

我正在使用 SparkR 在数据块中导入 Parquet 文件和 sparklyr .data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)data1 = sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")导入的时间差很大:SparkR 为 6 秒对比 sparklyr 的 11 分钟!
有没有办法减少在 sparklyr 中花费的时间？ ?我比较熟悉dplyr语法，因此 sparklyr以及。

最佳答案

默认 sparklyr::spark_read_parquet缓存结果 ( memory = TRUE )。
比较以下缓存结果:

SparkR::cache(SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE))

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")

这对于未缓存的:

SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)`

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*", memory = FALSE)

关于r - SparkR 和 sparklyr 之间导入 Parquet 文件所需的时间差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64058553/

上一篇：amazon-web-services - 重复使用 AWS::ApiGateway::ApiKey 的 cloudformation 模板

下一篇：python - Plotly:如何自定义 3D 散点图的符号？

java - 如何在没有 spark 或框架的情况下将 parquet 文件保存在 hdfs 中？

azure - 在 Databricks 的 DBFS 上安装 ADLS 时出错(错误 : NullPointerException)

oracle - 我在尝试使用 cx_Oracle 从 Azure Databricks Notebook 连接 Oracle 时遇到错误

regex - 将选项卡上的某些空格替换为-定界符

r - ZIP 和 ZINB 模型在对数据进行子集化和分解时出现错误

r - 直方图中条形图一角的数字，如何让它们在条形图下方居中？

r - 在起点和终点之间过滤

hadoop - 如何使用fileStream流式拼花地板文件？

azure - maxRecordsPerFile 在 Azure Data Bricks 中不起作用