apache-spark - 从多个源创建单个 Spark Dataframe?

标签 apache-spark dataframe pyspark apache-spark-sql

Spark 中的数据帧可以从外部文件创建。有没有办法使用多个文件来创建单个对象?

例如: 如果我说一个 csv 文件或 parquet 文件记录了相同的数据(比如一周中某一天购买的商品的数量)。有没有办法从每天的文件中初始化单个数据框,以获得代表一周购买数据的单个数据框?

最佳答案

spark 从文件读取输入的方式取决于底层 Hadoop API。这意味着它们通常会扩展相同的用途,包括能够处理压缩文件或多个文件。

在您的情况下,您只需使用通配符提供文件输入或用逗号单独分隔。请参阅How to read multiple text files into a single RDD?

关于apache-spark - 从多个源创建单个 Spark Dataframe?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38447494/

相关文章:

scala - 如何更新数组列?

java - 使用 renjin 在 Java 和 R 之间 move 数据

apache-spark - 在pyspark中展平结构数组

apache-spark - 如何获取数组列表中每个元素的最常见值(pyspark)

python - 如何将 PySpark Dataframe 列中的日期转换为月份的第一天?

arrays - 明智地聚合数组元素

python - 使用 Pandas 比较字符串到 JSON

python-2.7 - 在 PySpark 中比较地理空间数据的最有效方法

scala - Spark Streaming 中的分区是如何工作的?

python - CUT 或 value_counts() 后分割成 Pandas bin 后返回某个值的 bin