python - 转换数据帧: several columns to single by order

标签 python apache-spark pyspark apache-spark-sql

我正在使用 Spark 2.1.1 和数据帧。这是我的输入数据框:

+----+---------+---------+-------+
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1|       45|       10|subkey1|
|key1|       45|       20|subkey2|
|key2|       70|       40|subkey2|
|key2|       70|       30|subkey1|
+----+---------+---------+-------+

我需要将数据帧转换为下一个:

result data (by pandas):
+-----+-----------+
|label|   features|
+-----+-----------+
|   45|[10.0,20.0]|
|   70|[30.0,40.0]|
+-----+-----------+

我可以在 pandas 的帮助下进行转换:

def convert_to_flat_by_pandas(df):
    pandas_data_frame = df.toPandas()
    all_keys = pandas_data_frame['key'].unique()

    flat_values = []
    for key in all_keys:
        key_rows = pandas_data_frame.loc[pandas_data_frame['key'] == key]
        key_rows = key_rows.sort_values(by=['subkey'])

        parameter_values = key_rows['parameter']
        parameter_value = parameter_values.real[0]        

        key_reference_value = [reference_values for reference_values in key_rows['reference']]

        flat_values.append((parameter_value, key_reference_value))

    loaded_data = [(label, Vectors.dense(features)) for (label, features) in flat_values]
    spark_df = spark.createDataFrame(loaded_data, ["label", "features"])

    return spark_df

似乎,我需要使用 GroupBy,但我不明白如何排序并将组(多行)转换为单行。

工作样本来源(在 pandas 的帮助下):https://github.com/constructor-igor/TechSugar/blob/master/pythonSamples/pysparkSamples/df_flat.py

在 2 个答案的帮助下,我得到了 2 个可能的解决方案:

UPD1 解决方案 #1

def convert_to_flat_by_sparkpy(df):
    subkeys = df.select("subkey").dropDuplicates().collect()
    subkeys = [s[0] for s in subkeys]
    print('subkeys: ', subkeys)
    assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")
    spark_df = assembler.transform(df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))))    
    spark_df = spark_df.withColumnRenamed("parameter", "label")
    spark_df = spark_df.select("label", "features")
    return spark_df

UPD1 解决方案#2

def convert_to_flat_by_sparkpy_v2(df):
    spark_df = df.orderBy("subkey")
    spark_df = spark_df.groupBy("key").agg(first(col("parameter")).alias("label"), collect_list("reference").alias("features"))
    spark_df = spark_df.select("label", "features")
    return spark_df

最佳答案

对于您给出的有限示例数据,您可以将数据帧转换为宽格式,并以子键作为标题,然后使用VectorAssembler将它们收集为特征:

from pyspark.sql.functions import first, col
from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler().setInputCols(["subkey1", "subkey2"]).setOutputCol("features")

assembler.transform(
    df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference")))
).show()
+----+---------+-------+-------+-----------+
| key|parameter|subkey1|subkey2|   features|
+----+---------+-------+-------+-----------+
|key1|       45|     10|     20|[10.0,20.0]|
|key2|       70|     30|     40|[30.0,40.0]|
+----+---------+-------+-------+-----------+

动态子项更新:

假设您有一个像这样的数据框:

df.show()
+----+---------+---------+-------+    
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1|       45|       10|subkey1|
|key1|       45|       20|subkey2|
|key2|       70|       40|subkey2|
|key2|       70|       30|subkey1|
|key2|       70|       70|subkey3|
+----+---------+---------+-------+

首先收集所有唯一的子 key ,然后使用子 key 创建汇编器:

subkeys = df.select("subkey").dropDuplicates().rdd.map(lambda r: r[0]).collect()
assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")

assembler.transform(    
    df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))).na.fill(0)
).show()
+----+---------+-------+-------+-------+----------------+
| key|parameter|subkey1|subkey2|subkey3|        features|
+----+---------+-------+-------+-------+----------------+
|key1|       45|     10|     20|      0| [20.0,10.0,0.0]|
|key2|       70|     30|     40|     70|[40.0,30.0,70.0]|
+----+---------+-------+-------+-------+----------------+

关于python - 转换数据帧: several columns to single by order,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45489237/

相关文章:

java - SparkLauncher 未启动应用程序

python - 在python中测试文件相关功能

python - 如何修复我的 pandas 数据框中的索引,使其不只将值保持为零,而是增加值?

python - 如何在 get 方法中使用值列表?

python - Python中的长导入

scala - 升级了spark版本,在spark作业中遇到java.lang.NoSuchMethodError : scala. Product.$init$(Lscala/Product;)V

java - kafka 与 Apache Spark 集成

python-3.x - 如何比较来自 PySpark 数据帧的记录

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

python - Spark 公平调度不起作用