只是想知道将数据从各种来源批量加载到 HDFS 的最佳方法是什么,主要是在预定时间以固定频率从 FTP 位置/文件服务器加载数据。
我知道 Sqoop/Oozie 组合可用于 RDBMS 数据。但是,想知道使用调度机制将非结构化数据加载到 HDFS 中的最佳方式是什么。
最佳答案
你可以用 shell 编程来做。我可以用一些代码来指导
hadoop fs -cp ftp://uname:password@ftp2.xxxxa.com/filename hdfs://IPofhdfs/user/root/Logs/
几点:
1 finding the new files in ftp folder source by comparing hdfs dest with filenames.
2 pass the new filename to hdfs copy command.
---列出ftp中的所有文件,将文件列表存入allfiles.txt--
ftp -in ftp2.xxxx.com << SCRIPTEND
user Luname pass
lcd /home/Analytics/TempFiles
ls > AllFiles.txt
binary
quit
SCRIPTEND
let me know if you need any info
关于hadoop - 计划的数据加载到 Hadoop 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29150238/