python - 在开发 Spark 应用程序时使用多种语言

标签 python scala apache-spark pyspark

<分区>

我正在和另一个人一起做一个项目。我的项目部分涉及使用 Spark 的机器学习进行分析,而我的队友正在使用 Spark Streaming 将数据从源管道传输到程序,再输出到界面。

我打算使用 Scala,因为它对 Spark 的支持最好。但是,我的队友没有任何 Scala 经验,可能更喜欢使用 Python。

鉴于我们的程序部分正在做两件不同的事情,让他的 Python 脚本调用我的 Scala 可执行文件对我们来说是个好主意吗?或者使用不同的语言会在以后引起并发症吗?

最佳答案

有经验的开发人员将能够掌握一门新语言并很快提高工作效率。

只有在以下情况下,我才会考虑同时使用这两种语言:

  1. 截止日期太紧,开发人员无法跟上进度,
  2. 模块之间的集成非常有限(您确信这不会改变)并且
  3. 有明确的部署策略。

我建议先进行小规模测试,以确认您的部署和集成计划是否有效。

关于python - 在开发 Spark 应用程序时使用多种语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37820668/

相关文章:

r - sparklyr:如何跨组获取平衡样本

python - 在非根文件夹下使用 Twisted 和 Django 提供静态文件

带有 scala setAdapter InvocationTargetException 的 Android

java - 卡夫卡 : Cant Create Multiple Stream Consumers

apache-spark - 如何在 Airflow 中将 Spark 作业属性传递给 DataProcSparkOperator?

apache-spark - 如何启用公平调度程序?

python - 使用 .pfx 证书连接到 IIS 服务器

python - numpy和opencv中添加两个图像的区别

python - 动态 ChoiceField 无法在表单中进行验证

java - Spark 使用 sc.textFile 从 S3 读取文件(“s3n ://. ..)