我正在将批处理操作转换为 Spark 作业,目的是在 AWS EMR 中运行;这项工作的核心是连接两个相当大的数据集。
操作的核心是连接:
table_1: loaded from json file_1
table_2: loaded from parquet file_2
joined_table = table_1.join(table_2)
.map(some_data_transformations)
store_it_off(joined_table)
从google定义来看,一个dataFrame是一个表格结构,一个Rdd是分布式的;但是,我看到其他注释说 dataFrames 是基于 Rdds 实现的。数据帧是分布式的吗?它们是否仅在某些并行化步骤后才分布?
最佳答案
是的,Spark数据帧是分布式的
来自 spark 权威指南:
..spark dataFrame can span thousands of computers.
但是这只在 scala 和 java 中可用,
来自同一本书:
... Python/R DataFrames exist on one machine rather than multiple machines
关于python - spark 数据帧是分布式的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42512978/