我在 databricks 中有一个集群。在导入数据之前,我想在 python 和 scala 之间进行选择,在从源读取/写入大数据方面,哪个更好?
最佳答案
对于dataframe api,应该是相同的性能。对于 rdd api,scala 会更快。
关于spark-streaming - Databricks Python 与 Scala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61392080/