我在 Hadoop 集群上上传了 50GB 数据。 但是现在我想删除数据文件的第一行。 如果我删除该数据并手动更改,这将非常耗时。然后再次上传到HDFS上。 请回复我。
最佳答案
HDFS 文件是不可变的 ( for all practical purposes )。
您需要上传修改后的文件。您可以使用进行近身份转换的 M/R 作业以编程方式进行更改,例如。运行 streaming执行 sed
操作的 shell 脚本,但要点是您需要创建新文件,HDFS文件无法编辑。
关于hadoop - 如何从Hadoop中的hdfs文件中删除一些数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20143550/