hadoop - 了解TextInputFormat

标签 hadoop mapreduce

我是Hadoop的新手，目前正在设计MapReduce应用程序。在我的情况下，我有一个csv文件。我希望对csv文件中的每一行取平均，以便为每一行创建一个单独的映射器。据我了解，TextInputFormat将自动按行分割文件。那我是否理解，也将自动为每行创建一个单独的映射器？如果没有，该如何告诉Hadoop做我想做的事情？我必须实现自定义拆分器吗？谢谢!

最佳答案

没关系。我想到了。我需要使用NLineInputFormat。

关于hadoop - 了解TextInputFormat，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23284228/

上一篇：sql - Hadoop:为什么即使在很小的 table 上，Hive的工作速度仍然如此缓慢？

下一篇：hadoop - 如何将文件从Windows操作系统复制到cloudera？我也想将.csv文件导入到配置单元中，我该怎么做？

hadoop - 安装Apache Ranger后无法重新启动配置单元

java - 用hadoop获得csv文件最大值(value)的更好方法是什么？

java - 如何在map-reduce中将虚拟变量设置为multipleinput中的路径

architecture - Zookeeper 适合这种场景吗？

hadoop - 我正在尝试停止hadoop服务，但收到诸如 'Error: root user required"的错误消息

java - hadoop-yarn-server-nodemanager 上的 Hadoop 2.6.0 Maven 编译错误

java - Hadoop 几个映射器

javascript - 从大型 json 数据集创建对象数组

amazon-ec2 - 使用 Hadoop 处理来自 Web 服务器的实时日志提要