我通过粘合作业返回填充一些数据。该作业本身是从 s3 读取 TSV,稍微转换数据,然后将其以 Parquet 写入 S3。由于我已经拥有数据,因此我尝试一次启动多个作业,以减少处理所有数据所需的时间。当我同时启动多个作业时,有时会遇到一个问题,其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成,不会引发错误当我将作业作为非并行任务重新运行时,它会正确输出文件。胶水(或底层 Spark )或 S3 是否存在一些问题会导致我的问题?
最佳答案
并行运行的同一 Glue 作业可能会生成具有相同名称的文件,因此其中一些文件可能会被覆盖。我没记错的话,转换上下文用作名称的一部分。我假设您没有启用书签,因此动态生成转换上下文值应该是安全的,以确保它对于每个作业都是唯一的。
关于amazon-web-services - 胶水作业无法写入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57061213/