hadoop - EMR作业中的自定义RecordReader

标签 hadoop amazon-web-services emr

如何在Amazon EMR的工作流程中指定要使用的自定义RecordReader

注:此处是 Hadoop新手。

最佳答案

您可以在驱动程序类中指定输入格式(该类包含作业的“主要”。记录读取器是输入格式的逻辑部分,实际上会将其返回到映射任务。
我认为这不是EMR特有的。

关于hadoop - EMR作业中的自定义RecordReader,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10730334/

相关文章:

javascript - AWS Lambda 函数多次处理相同的 dynamodb 流。我错过了什么?

hadoop - 从一个集群迁移到另一个集群

sql - 我需要在Hive中将小数点位置向左或向右移动而不四舍五入

hadoop - 如何编写配置单元脚本以预期格式返回数据

java - MapReduce - reducer 不组合键

java - 使用变量的值作为枚举值

amazon-web-services - AWS EBS 卷 "in-use - optimizing"

scala - 如何检查 Spark 中是否存在 s3path [使用 scala]?

mysql - Hive 外部表 - 数据位置元数据存储在哪里?

java - Talend - 无法运行作业 - NoClassDefFoundError