sql - “DataFrame”对象没有属性 'orderby'

标签 sql azure join pyspark union

我在我的应用程序上使用azure databrick。 我使用机器学习来进行插补。得到结果后,我想加入并合并使其成为一个完整的数据集,以便我可以将其写入 blob 存储。

df3 = spark.sql("""

select * from df1 
FULL OUTER JOIN df2 
on df1.columnindex == df2.columnindex

""")

加入完成后,我显示结果,发现'columnindex'中的很多索引丢失了,所以我执行了orderBy

df3 = df3.orderBy('columnindex')

在我看来,索引没有丢失,但排序不正确。 但是在我执行联合之后

df5 = spark.sql("""

select * from unmissing_data 
union
select * from df4

""")

并执行 orderBy

df5  = df5.orderBy('columnindex')

我收到以下错误:“DataFrame”对象没有属性“orderby”。有谁知道为什么会发生这种情况以及为什么我在“columnindex”列中的初始索引没有像在原始数据集中那样正确排序?

最佳答案

我刚刚在 Spark 3.2.0 版本中遇到了这个问题。我认为这可能是一个错误。使用 sort 代替 orderBy 解决了该问题。

关于sql - “DataFrame”对象没有属性 'orderby',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64001269/

相关文章:

php - 将日期插入 MySQL 时遇到问题

php - Mysql 使用 group by 和 order by 进行连接

mysql - 将行值扩展到单独的行

sql - 如何动态地从配置单元表中删除分区?

sql - 存储人类可读的 UUID 的最小方法是什么?

c# - LINQ to Entities 等效于 sql "TOP(n) WITH TIES"

c# - 使用 AcquireTokenByUsernamePassword 方法为联合用户获取图形 api token

azure - 在 aspnetcore 应用程序中共享开发 secret 的最简单方法

azure - 我可以从 ip 而不是域访问 azure 中的 blob 文件吗?

php - MySQL 中的条件 JOIN 语句