hadoop - Mapreduce 处理同一目录中的多个文件

标签 hadoop mapreduce

如果我的输入文件夹中有两个文件,hadoop mapreduce 会将这两个文件作为 .有没有办法为这两个文件指定不同的处理方式?例如,假设我 encounter 不是为每个单词触发 1 ,如果这个词在文件 1 中,我想触发一个 1,如果它出现在同一目录中的文件 2 中,我想触发一个 2。你会怎么做?

最佳答案

您应该能够获得此帖子中描述的文件名 How to get the input file name in the mapper in a Hadoop program?

一旦你有了文件名,你就可以有一个条件来检查文件名,你应该能够触发 1 或 2。

关于hadoop - Mapreduce 处理同一目录中的多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28843140/

相关文章:

java - Hadoop WordCount代码,显示以下错误

hadoop - 使用 SFTP 将文件移动到 Hadoop HDFS

python - Mrjob 无法在 dataproc 上创建集群 : __init__() got an unexpected keyword argument 'channel'

hadoop - ETL关联HADOOP数据库Hbase?

scala - Spark HBase连接超时/挂起

mongodb - Mongodb-Hadoop连接器版本错误

hadoop - 是否可以在同一个节点中运行 Hive 和 Pig?

unix - Hadoop:设置MapReduce资源权限

hadoop - 在Amazon Elastic MapReduce和S3中读取参数文件

python - 如何为 Python 程序分配更多内存?它在 4GB RAM 上消耗的内存不超过 64MB