hadoop - 使用 mapreduce 修改 hdfs 上的文件

标签 hadoop mapreduce hdfs

我可以修改驻留在 hdfs 上的文件吗?是创建具有修改内容的临时文件并删除原始文件的唯一方法吗?

我可以使用 map-reduce 修改文件吗?是否可以并行修改不同的文件 block 并以某种方式合并到一个文件中?

最佳答案

一旦文件在 HDFS 中,您就不能修改它,除非附加到它。看到这个确认追加是可能的答案:

Append data to existing file in HDFS Java

Map reduce 允许您并行操作文件,每个映射器读取文件的一个 block ,同时运行多个映射器。这就是它设计的工作方式。

任何给定的映射器都可以过滤行并很容易地将全部、部分或全部写出到新文件中。

如果您使用 map-reduce 写出修改后的文件,默认情况下它将显示为一个文件目录,可以根据您的要求组合成一个文件。

关于hadoop - 使用 mapreduce 修改 hdfs 上的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34927089/

相关文章:

hadoop - curl 下载到 HDFS

sorting - Hadoop 在 Reduce Side Join 中按值排序

java - 在 hadoop HDFS 中存储大文件?

hadoop - 在 PIG UDF 中调试

java - Map Reduce程序将多个xml文件合并为一个xml文件

java - 在 Java Hadoop 2.2 的 MapReduce 中对一系列值进行分组

java - 使用 XMLInputFormat 在 hadoop 中解析 xml 时不执行我的 hadoop 映射器类

Hadoop 映射但不减少

hadoop - HDFS 有获取今天日期的功能吗?

hadoop - Cloudera Impala是内存消耗框架吗?