python - spark 数据帧是分布式的吗?

标签 python apache-spark

我正在将批处理操作转换为 Spark 作业,目的是在 AWS EMR 中运行;这项工作的核心是连接两个相当大的数据集。

操作的核心是连接:

table_1: loaded from json file_1
table_2: loaded from parquet file_2
joined_table = table_1.join(table_2)
   .map(some_data_transformations)

store_it_off(joined_table)

从google定义来看,一个dataFrame是一个表格结构,一个Rdd是分布式的;但是,我看到其他注释说 dataFrames 是基于 Rdds 实现的。数据帧是分布式的吗?它们是否仅在某些并行化步骤后才分布?

最佳答案

是的,Spark数据帧是分布式的
来自 spark 权威指南:

..spark dataFrame can span thousands of computers.

但是这只在 scala 和 java 中可用,
来自同一本书:

... Python/R DataFrames exist on one machine rather than multiple machines

关于python - spark 数据帧是分布式的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42512978/

相关文章:

python - 将字符串头和索引添加到 numpy 数组

python - 为什么 else 条件在 Python If-else 语句上不起作用?

apache-spark - 计算 spark Dataframe 中的新列,使用 pyspark 将 df1 中的标记列表列与 df2 中的文本列交叉

apache-spark - 更新 apache parquet 文件中的值

apache-spark - 如何打印出 Spark session 的 Spark 连接?

python - 自然语言时间解析器

python - 通过 SWIG 传递函数指针数组

python - 在python中设置Logistic回归的精确迭代次数

apache-spark - Spark,如何打印查询?

apache-spark - SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别?