hadoop - 在hadoop中备份源数据文件

标签 hadoop hdfs

我希望有100个XML,Excel和定界格式的数据文件,这些文件每周都会转换为AVRO。您是否建议在文件夹备份或本地文件系统(不是HDFS)下的文件夹中以HDFS格式保存源文件的原始备份。

这些文件来自FTP。

最佳答案

转换过程成功后,由于HDFS托管了AVRO文件,因此假设您根据需要设置复制因子,它将负责备份。此时,无需将源文件保存在HDFS中。此时,最好是进行磁带备份。

关于hadoop - 在hadoop中备份源数据文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21269022/

相关文章:

hadoop - Hadoop>是在运行Hadoop作业时工作的datanode和namenode进程

scala - 是否可以在 HDFS 上持久化 RDD?

java - 从长转换为文本

java - slave VM 从 slaves 列表中删除,并且仍然被 Yarn/Tez 访问

file - 如何将gzip文件移动到hdfs

hadoop - 直接在数据节点中读取 block 的内容

ubuntu - 使用HDFS中的文件到Apache Spark

hadoop - hadoop输入数据问题

java - 用户日志为空

csv - Apache pig 按功能分组没有给出预期的输出