hadoop - 了解TextInputFormat

标签 hadoop mapreduce

我是Hadoop的新手,目前正在设计MapReduce应用程序。在我的情况下,我有一个csv文件。我希望对csv文件中的每一行取平均,以便为每一行创建一个单独的映射器。据我了解,TextInputFormat将自动按行分割文件。那我是否理解,也将自动为每行创建一个单独的映射器?如果没有,该如何告诉Hadoop做我想做的事情?我必须实现自定义拆分器吗?谢谢!

最佳答案

没关系。我想到了。我需要使用NLineInputFormat。

关于hadoop - 了解TextInputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23284228/

相关文章:

hadoop - Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

hadoop - 安装Apache Ranger后无法重新启动配置单元

java - 用hadoop获得csv文件最大值(value)的更好方法是什么?

java - 如何在map-reduce中将虚拟变量设置为multipleinput中的路径

architecture - Zookeeper 适合这种场景吗?

hadoop - 我正在尝试停止hadoop服务,但收到诸如 'Error: root user required"的错误消息

java - hadoop-yarn-server-nodemanager 上的 Hadoop 2.6.0 Maven 编译错误

java - Hadoop 几个映射器

javascript - 从大型 json 数据集创建对象数组

amazon-ec2 - 使用 Hadoop 处理来自 Web 服务器的实时日志提要