我有许多 json 文件(下面给出的示例)以压缩格式存在于 S3 文件夹(比如 s3://data/)中,如 foo.json.gz、foo1.json.gz、foo2.json.gz。其中一个类别(例如 1010)被错误分配,需要将所有文件更改为 1020。我们如何进行此更改并使用修改后的内容在 S3 中重新打包这些文件?
foo.json
{
"flower": "lilly",
"animal": "cat",
"category": "1010"
}
{
"flower": "rose",
"animal": "dog",
"category": "1000"
}
{
"flower": "daisy",
"animal": "cat",
"category": "1010"
}
最佳答案
最简单有效的方法是:
- 在与存储桶位于同一区域的 EC2 实例中获取所有这些文件,以最大限度地降低成本。(使用
aws cli
) - 解压缩 *.gz 文件(使用
gunzip
) - 实用更新 json 文件。(使用
php
) - 重新压缩文件。
- 将文件复制回 S3。(使用
aws cli
)
关于hadoop - 如何根据 S3 中的特定模式修改文件内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38136400/