xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换？

标签 xml amazon-s3 hadoop mapreduce xslt

更具体地说，是否有某种简单的流媒体解决方案？

最佳答案

请参阅此链接:How do I process files, one per map?

将您的数据上传到 S3 存储桶
生成一个文件，其中包含每个文件的完整 s3n://路径
编写一个映射器脚本:
- 从环境中提取“mapred_work_output_dir”(*)
- 根据文件名进行XSLT转换，保存到输出目录
编写一个什么也不做的身份归约器
将您的映射器/缩减器脚本上传到 S3 存储桶
通过 AWS EMR 控制台测试您的脚本

(*) Streaming 将您的 jobconf 置于流程环境中。见代码 here .

关于xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3454561/

上一篇：Hadoop:如何使用上下文对象在减少步骤中找出partition_Id

下一篇：postgresql - OpenStreetMap 和 Hadoop

相关文章：

amazon-web-services - 如何使用Amazon AWS PHP SDK在区域之间复制S3对象？

Hadoop - Hive 2 ParseException - 无法识别表达式规范中 'over' '(' 'partition' 附近的输入

java - 这个官方 Xml 模式是否无效或者是 Jaxb 的错误限制

xml - 使用 XSLT 重命名节点

c - 从 xml 响应中提取 url

java - Android XML (RSS) 忽略引号 (")

amazon-s3 - 将 S3 对象流式传输到 VertX Http Server 响应

apache-spark - Spark 程序的 S3 减速异常

hadoop - HDFS IO错误org.apache.hadoop.ipc.RemoteException:服务器IPC版本9无法与客户端版本4 i通信

amazon-web-services - 列出 EMR 上的 S3 文件夹

©2024 IT工具网联系我们