amazon-web-services - 胶水作业无法写入文件

标签 amazon-web-services amazon-s3 pyspark aws-glue

我通过粘合作业返回填充一些数据。该作业本身是从 s3 读取 TSV,稍微转换数据,然后将其以 Parquet 写入 S3。由于我已经拥有数据,因此我尝试一次启动多个作业,以减少处理所有数据所需的时间。当我同时启动多个作业时,有时会遇到一个问题,其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成,不会引发错误当我将作业作为非并行任务重新运行时,它会正确输出文件。胶水(或底层 Spark )或 S3 是否存在一些问题会导致我的问题?

最佳答案

并行运行的同一 Glue 作业可能会生成具有相同名称的文件,因此其中一些文件可能会被覆盖。我没记错的话,转换上下文用作名称的一部分。我假设您没有启用书签,因此动态生成转换上下文值应该是安全的,以确保它对于每个作业都是唯一的。

关于amazon-web-services - 胶水作业无法写入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57061213/

相关文章:

javascript - 使用 javascript S3 将目录上传到存储桶内的文件夹

python - 导入错误 : No module named numpy on spark workers

apache-spark - 为什么单元素 RDD 中有这么多分区

python - SnowflakeSQLException 错误代码 : 390100, 消息:指定的用户名或密码不正确

ruby-on-rails - 尝试设置 Amazon 的 S3 存储桶 : 403 Forbidden error & setting permissions

amazon-web-services - AWS查找S3存储桶中的最大文件大小

amazon-web-services - NestJS:图像上传和服务 API

django - Celery 可以在 Elastic Beanstalk 上运行吗?

amazon-web-services - 如何更改 API 网关响应

java - AWS S3获取包含文本的 key