我进行了很多调查,但在如何测试我的 pyspark 结构化流管道作业(从 Kafka 主题摄取到 S3)以及如何构建持续集成(CI )/持续部署 (CD)。
是否可以测试(单元测试、集成测试)pyspark 结构化流?
如何构建持续集成 (CI)/持续部署 (CD)?
最佳答案
- 引用https://bartoszgajda.com/2020/04/13/testing-spark-structured-streaming-using-memorystream/ - 代码在 Scala 中,但您应该能够转换为 PySpark
- 从 Jenkins (https://www.jenkins.io/) 开始
关于PySpark 结构化流测试支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63351280/