xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换?

标签 xml amazon-s3 hadoop mapreduce xslt

更具体地说,是否有某种简单的流媒体解决方案?

最佳答案

请参阅此链接:How do I process files, one per map?

  • 将您的数据上传到 S3 存储桶
  • 生成一个文件,其中包含每个文件的完整 s3n://路径
  • 编写一个映射器脚本:
    • 从环境中提取“mapred_work_output_dir”(*)
    • 根据文件名进行XSLT转换,保存到输出目录
  • 编写一个什么也不做的身份归约器
  • 将您的映射器/缩减器脚本上传到 S3 存储桶
  • 通过 AWS EMR 控制台测试您的脚本

(*) Streaming 将您的 jobconf 置于流程环境中。见代码 here .

关于xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3454561/

相关文章:

amazon-web-services - 如何使用Amazon AWS PHP SDK在区域之间复制S3对象?

Hadoop - Hive 2 ParseException - 无法识别表达式规范中 'over' '(' 'partition' 附近的输入

java - 这个官方 Xml 模式是否无效或者是 Jaxb 的错误限制

xml - 使用 XSLT 重命名节点

c - 从 xml 响应中提取 url

java - Android XML (RSS) 忽略引号 (")

amazon-s3 - 将 S3 对象流式传输到 VertX Http Server 响应

apache-spark - Spark 程序的 S3 减速异常

hadoop - HDFS IO错误org.apache.hadoop.ipc.RemoteException:服务器IPC版本9无法与客户端版本4 i通信

amazon-web-services - 列出 EMR 上的 S3 文件夹