hadoop - 如何从Hadoop中的hdfs文件中删除一些数据

标签 hadoop hdfs

我在 Hadoop 集群上上传了 50GB 数据。 但是现在我想删除数据文件的第一行。 如果我删除该数据并手动更改,这将非常耗时。然后再次上传到HDFS上。 请回复我。

最佳答案

HDFS 文件是不可变的 ( for all practical purposes )。

您需要上传修改后的文件。您可以使用进行近身份转换的 M/R 作业以编程方式进行更改,例如。运行 streaming执行 sed 操作的 shell 脚本,但要点是您需要创建文件,HDFS文件无法编辑。

关于hadoop - 如何从Hadoop中的hdfs文件中删除一些数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20143550/

相关文章:

hadoop - HDFS 文件夹权限中的掩码是什么

hadoop - 如何在不移动数据的情况下从具有不同分区的另一个配置单元表创建配置单元表?

java - 为什么我无法运行hadoop jar文件,每次运行它时都说未找到类itemclick.itemclick.ItemClick?

scala - 多scala数据帧连接

sql - 配置单元错误,在减法查询中出现 EOF 错误

hadoop用户文件权限

hadoop - 需要在数据节点上维护复制因子

hadoop - Hbase memstore 手动刷新

java - getstrings方法hadoop中的空指针异常

linux - 混合hadoop集群