hadoop - 计划的数据加载到 Hadoop 中

标签 hadoop hdfs oozie

只是想知道将数据从各种来源批量加载到 HDFS 的最佳方法是什么,主要是在预定时间以固定频率从 FTP 位置/文件服务器加载数据。

我知道 Sqoop/Oozie 组合可用于 RDBMS 数据。但是,想知道使用调度机制将非结构化数据加载到 HDFS 中的最佳方式是什么。

最佳答案

你可以用 shell 编程来做。我可以用一些代码来指导

 hadoop fs -cp ftp://uname:password@ftp2.xxxxa.com/filename  hdfs://IPofhdfs/user/root/Logs/

几点:

   1 finding the new files in ftp folder source by comparing  hdfs dest with filenames.
   2 pass the new filename to hdfs copy command.

---列出ftp中的所有文件,将文件列表存入allfiles.txt--

  ftp -in ftp2.xxxx.com << SCRIPTEND
  user Luname pass
  lcd /home/Analytics/TempFiles
  ls > AllFiles.txt
  binary
  quit
  SCRIPTEND

  let me know if you need any info

关于hadoop - 计划的数据加载到 Hadoop 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29150238/

相关文章:

hadoop - hadoop fs -ls:从服务器/127.0.1.1到本地主机的调用失败

hadoop - Hortonworks环境中的Pentaho MapReduce作业抛出错误

hadoop - hadoop-如果一个文件只有一个记录并且文件的大小大于 block 大小,那么输入拆分形式会如何?

hadoop - 如何从 HDFS 中删除文件?

hadoop - Oozie不清除Oozie数据库中的旧作业

hadoop - 如何配置 hbase 写入文件系统?

hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业?

java - Hadoop 外部 jar

Shell 脚本不适用于使用 Hue 的 Oozie

hadoop - PL/SQL 能否可靠地转换为 Pig Lating 或带有 Pig Latin 和 Hive 的 Oozie 管道