我可以修改驻留在 hdfs 上的文件吗?是创建具有修改内容的临时文件并删除原始文件的唯一方法吗?
我可以使用 map-reduce 修改文件吗?是否可以并行修改不同的文件 block 并以某种方式合并到一个文件中?
最佳答案
一旦文件在 HDFS 中,您就不能修改它,除非附加到它。看到这个确认追加是可能的答案:
Append data to existing file in HDFS Java
Map reduce 允许您并行操作文件,每个映射器读取文件的一个 block ,同时运行多个映射器。这就是它设计的工作方式。
任何给定的映射器都可以过滤行并很容易地将全部、部分或全部写出到新文件中。
如果您使用 map-reduce 写出修改后的文件,默认情况下它将显示为一个文件目录,可以根据您的要求组合成一个文件。
关于hadoop - 使用 mapreduce 修改 hdfs 上的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34927089/