spark-streaming - Databricks Python 与 Scala

标签 spark-streaming databricks

我在 databricks 中有一个集群。在导入数据之前,我想在 python 和 scala 之间进行选择,在从源读取/写入大数据方面,哪个更好?

最佳答案

对于dataframe api,应该是相同的性能。对于 rdd api,scala 会更快。

关于spark-streaming - Databricks Python 与 Scala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61392080/

相关文章:

java - Kafka 和 TextSocket Stream 中的 Spark Streaming 数据分发

azure - Databricks Azure - 如何从笔记本运行 API 命令

apache-spark - Spark 执行器 GC 需要很长时间

python - 我什么时候应该在笔记本中模块化代码

java - 如何在 apache spark 中加入两个(或更多)流(JavaDStream)

python - 如何在流中应用 MLFlow 预测模型?

java - 如何在Spark +2.4中读取CSV时设置时间戳格式

scala - 使用 Databricks Connect 时如何正确访问 Scala 中的 dbutils

java - 运行约 1 小时后,Spark Streaming 作业被终止

scala - 将 DStream 与动态数据集连接