PySpark 结构化流测试支持

标签 pyspark

我进行了很多调查，但在如何测试我的 pyspark 结构化流管道作业(从 Kafka 主题摄取到 S3)以及如何构建持续集成(CI )/持续部署 (CD)。

是否可以测试(单元测试、集成测试)pyspark 结构化流？
如何构建持续集成 (CI)/持续部署 (CD)？

最佳答案

引用https://bartoszgajda.com/2020/04/13/testing-spark-structured-streaming-using-memorystream/ - 代码在 Scala 中，但您应该能够转换为 PySpark
从 Jenkins (https://www.jenkins.io/) 开始

关于PySpark 结构化流测试支持，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63351280/

上一篇：tensorflow - Keras 自定义数据生成器非常慢

下一篇：javascript - Mocha 测试 : Cannot use import statement outside a module

相关文章：

apache-spark - ShuffledRDD、MapPartitionsRDD 和 ParallelCollectionRDD 之间有什么区别？

apache-spark - 如何删除 None 值

python - Spark动态帧显示方法没有产生任何结果

python - 从具有 DenseVector 行的 pyspark 数据框中获取行的最大值

apache-spark - 如何在pyspark中使用rlike使用多个正则表达式模式

apache-spark - 提高 Spark 处理大量小文件的性能？

python - 在 Spark 中关闭 MYSQL JDBC 连接

python - PySpark 不会启动 - ‘python’ : No such file or directory

python - Pyspark 从具有不同列的行/数据创建 DataFrame

apache-spark - 在 PySpark 中获取列的名称/别名

©2024 IT工具网联系我们