hadoop - 定时上传HDFS数据

标签 hadoop

我正在做一个项目,我会实时收集数据。我想定期将该数据从我的本地机器上传到 HDFS。这里的频率将每隔几个小时。

我的想法是安排一个批处理文件在 2 小时后定期运行。

最佳答案

你有几个选择:

  • 使用 cron 作业。
  • 如果您希望它更复杂,您可以使用 Apache Oozie 来安排您的作业。
  • 如果您希望以分布式、可靠和容错的方式完成此操作,您可以使用 Apache Flume。借助 Flume,您甚至可以通过为数据源编写自定义 Flume 源直接从源收集数据,而无需先将数据聚合到本地 FS,然后再将其移动到 HDFS。

关于hadoop - 定时上传HDFS数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18090236/

相关文章:

junit - Hadoop JUnit 测试向/从 hdfs 写入/读取

python - Spark统计函数Python

hadoop - 计算Hive中某列类别的百分比

eclipse - HDFS Web 界面替代方案

具有数百万条记录插入的 Hadoop 后端

java - 如何将配置从配置单元脚本传递到 UDF

java - 如何附加ORC文件

hadoop - 使用 bootstrap 替换 EMR 上的默认 jar

hadoop - 如何向 Tez 添加额外的库以支持不同的 HDFS 后端?

json - 德鲁伊 Parquet 摄取性能差