python - spark 数据帧是分布式的吗？

我正在将批处理操作转换为 Spark 作业，目的是在 AWS EMR 中运行；这项工作的核心是连接两个相当大的数据集。

操作的核心是连接:

table_1: loaded from json file_1
table_2: loaded from parquet file_2
joined_table = table_1.join(table_2)
   .map(some_data_transformations)

store_it_off(joined_table)

从google定义来看，一个dataFrame是一个表格结构，一个Rdd是分布式的；但是，我看到其他注释说 dataFrames 是基于 Rdds 实现的。数据帧是分布式的吗？它们是否仅在某些并行化步骤后才分布？

最佳答案

是的，Spark数据帧是分布式的
来自 spark 权威指南:

..spark dataFrame can span thousands of computers.

但是这只在 scala 和 java 中可用，
来自同一本书:

... Python/R DataFrames exist on one machine rather than multiple machines

关于python - spark 数据帧是分布式的吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42512978/

上一篇：svn - Jenkins 管道 - SVN 轮询

下一篇：fortran - 如何从函数访问父变量

相关文章：

python - 将字符串头和索引添加到 numpy 数组

python - 为什么 else 条件在 Python If-else 语句上不起作用？

apache-spark - 计算 spark Dataframe 中的新列，使用 pyspark 将 df1 中的标记列表列与 df2 中的文本列交叉

apache-spark - 更新 apache parquet 文件中的值

apache-spark - 如何打印出 Spark session 的 Spark 连接？

python - 自然语言时间解析器

python - 通过 SWIG 传递函数指针数组

python - 在python中设置Logistic回归的精确迭代次数

apache-spark - Spark，如何打印查询？

apache-spark - SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别？