python-3.x - Pyspark DataFrame OrderBy的列列表

标签 python-3.x apache-spark pyspark apache-spark-sql sql-order-by

我在写到csv之前尝试在pyspark数据帧中使用OrderBy函数，但是如果我有列列表，则不能确定使用OrderBy函数。

代码:

Cols = ['col1','col2','col3']
df = df.OrderBy(cols,ascending=False)

最佳答案

根据文档字符串/签名:

Signature: df.orderBy(*cols, **kwargs)
Docstring:
Returns a new :class:`DataFrame` sorted by the specified column(s).
:param cols: list of :class:`Column` or column names to sort by.
:param ascending: boolean or list of boolean (default True).

两个都

df = spark.createDataFrame([(1, 2, 3)] )
cols = ["_1", "_2", "_3"]

df.orderBy(cols, ascending=False)

和

df.orderBy(*cols, ascending=False)

是有效的，以及list[pyspark.sql.Column]的等效项。

关于python-3.x - Pyspark DataFrame OrderBy的列列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50783515/

上一篇：r - 计算R中数字字符串的变异性指数

下一篇：vector - Idris - 自定义相关数据类型的映射函数失败

相关文章：

python - 我在 Python 3 的字典中调用函数

java - 即使找到两个库，Spark 也会出现日志记录错误

math - 是否有针对以下排名问题的优雅pyspark解决方案？

apache-spark - 在 spark 中获取树模型的叶子概率

apache-spark - 将 MySQL 表转换为 Parquet 时出现 Spark 异常

pyspark - 在另一个 Spark sql 查询中使用 PySpark Dataframe 列

python - 即使退出状态非零，也使用 check_output 获取输出

python-3.x - 将方括号对之间的双引号替换为单引号

python - 将文件中的字符串分组到字典中

java - 使用 Java API 和 JavaRDD<Row> 在 Spark SQL 中向数据帧添加新列