amazon-web-services - Amazon EMR 和 Spark 流

标签 amazon-web-services apache-spark spark-streaming amazon-emr spark-structured-streaming

Amazon EMR、Apache Spark 2.3、Apache Kafka,每天约 1000 万条记录。

Apache Spark 用于按 5 分钟批量处理事件,每天一次工作节点正在死亡,AWS 会自动重新配置节点。查看日志消息时,节点中似乎没有空间,但它们在那里有大约 1Tb 的存储空间。

在存储空间应该绰绰有余的情况下,是否有人遇到过存储空间问题?

我认为日志聚合无法将日志正确复制到 s3 存储桶,正如我所见,这应该由 spark 进程自动完成。

我应该提供什么样的信息来帮助解决这个问题?

先感谢您!

最佳答案

我在 EMR 上的结构化流应用程序中遇到了类似的问题,磁盘空间迅速增加到应用程序停止/崩溃的程度。

在我的情况下,修复是禁用 Spark 事件日志:
spark.eventLog.enabledfalse
http://queirozf.com/entries/spark-streaming-commong-pitfalls-and-tips-for-long-running-streaming-applications#aws-emr-only-event-logs-under-hdfs-var-log-spark-apps-when-using-a-history-server

关于amazon-web-services - Amazon EMR 和 Spark 流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52880783/

相关文章:

amazon-web-services - 使用 AWS API Gateway 和 AWS SNS 发送 SMS(无需 Lambda)

java - 在 Amazon Web Services 上运行 Web 应用程序时查看控制台输出

python - 在 Pyspark 中如何添加列表中的所有值?

scala - Spark 结构化流 + Kafka 集成 : MicroBatchExecution PartitionOffsets Error

amazon-web-services - 从 CloudFormation 模板生成代码(java、python 等)

amazon-web-services - ECS服务弹性伸缩和弹性伸缩组

hadoop - 执行mapreduce作业时PySpark抛出错误

python - 为什么 sortBy() 无法在 Spark 中对数据进行均匀排序?

java - 为什么在 foreachPartition 中建立数据库连接并将其并行化会导致 "ORA-00060: deadlock"?

java - 在Spark Streaming应用程序中,如何在一行lines.foreachRDD()完成执行后执行lines.map()函数