PySpark 结构化流测试支持

标签 pyspark

我进行了很多调查,但在如何测试我的 pyspark 结构化流管道作业(从 Kafka 主题摄取到 S3)以及如何构建持续集成(CI )/持续部署 (CD)。

  1. 是否可以测试(单元测试、集成测试)pyspark 结构化流?

  2. 如何构建持续集成 (CI)/持续部署 (CD)?

最佳答案

  1. 引用https://bartoszgajda.com/2020/04/13/testing-spark-structured-streaming-using-memorystream/ - 代码在 Scala 中,但您应该能够转换为 PySpark
  2. 从 Jenkins (https://www.jenkins.io/) 开始

关于PySpark 结构化流测试支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63351280/

相关文章:

apache-spark - ShuffledRDD、MapPartitionsRDD 和 ParallelCollectionRDD 之间有什么区别?

apache-spark - 如何删除 None 值

python - Spark动态帧显示方法没有产生任何结果

python - 从具有 DenseVector 行的 pyspark 数据框中获取行的最大值

apache-spark - 如何在pyspark中使用rlike使用多个正则表达式模式

apache-spark - 提高 Spark 处理大量小文件的性能?

python - 在 Spark 中关闭 MYSQL JDBC 连接

python - PySpark 不会启动 - ‘python’ : No such file or directory

python - Pyspark 从具有不同列的行/数据创建 DataFrame

apache-spark - 在 PySpark 中获取列的名称/别名