更具体地说,是否有某种简单的流媒体解决方案?
最佳答案
请参阅此链接:How do I process files, one per map?
- 将您的数据上传到 S3 存储桶
- 生成一个文件,其中包含每个文件的完整 s3n://路径
- 编写一个映射器脚本:
- 从环境中提取“mapred_work_output_dir”(*)
- 根据文件名进行XSLT转换,保存到输出目录
- 编写一个什么也不做的身份归约器
- 将您的映射器/缩减器脚本上传到 S3 存储桶
- 通过 AWS EMR 控制台测试您的脚本
(*) Streaming 将您的 jobconf 置于流程环境中。见代码 here .
关于xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3454561/