amazon-web-services - Amazon EMR 和 Spark 流

标签 amazon-web-services apache-spark spark-streaming amazon-emr spark-structured-streaming

Amazon EMR、Apache Spark 2.3、Apache Kafka，每天约 1000 万条记录。

Apache Spark 用于按 5 分钟批量处理事件，每天一次工作节点正在死亡，AWS 会自动重新配置节点。查看日志消息时，节点中似乎没有空间，但它们在那里有大约 1Tb 的存储空间。

在存储空间应该绰绰有余的情况下，是否有人遇到过存储空间问题？

我认为日志聚合无法将日志正确复制到 s3 存储桶，正如我所见，这应该由 spark 进程自动完成。

我应该提供什么样的信息来帮助解决这个问题？

先感谢您!

最佳答案

我在 EMR 上的结构化流应用程序中遇到了类似的问题，磁盘空间迅速增加到应用程序停止/崩溃的程度。

在我的情况下，修复是禁用 Spark 事件日志:
spark.eventLog.enabled至 false
http://queirozf.com/entries/spark-streaming-commong-pitfalls-and-tips-for-long-running-streaming-applications#aws-emr-only-event-logs-under-hdfs-var-log-spark-apps-when-using-a-history-server

关于amazon-web-services - Amazon EMR 和 Spark 流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52880783/

上一篇：amazon-web-services - 如果 S3 中更新的对象充当 lambda 触发器，是否存在固有的竞争条件？

下一篇：internet-explorer-8 - HTTP Referrer 和 IE7 和 IE8

java - 在 Amazon Web Services 上运行 Web 应用程序时查看控制台输出

python - 在 Pyspark 中如何添加列表中的所有值？

scala - Spark 结构化流 + Kafka 集成 : MicroBatchExecution PartitionOffsets Error

amazon-web-services - 从 CloudFormation 模板生成代码(java、python 等)

amazon-web-services - ECS服务弹性伸缩和弹性伸缩组

hadoop - 执行mapreduce作业时PySpark抛出错误

python - 为什么 sortBy() 无法在 Spark 中对数据进行均匀排序？

java - 为什么在 foreachPartition 中建立数据库连接并将其并行化会导致 "ORA-00060: deadlock"？

java - 在Spark Streaming应用程序中，如何在一行lines.foreachRDD()完成执行后执行lines.map()函数