我正在做一个项目,我会实时收集数据。我想定期将该数据从我的本地机器上传到 HDFS。这里的频率将每隔几个小时。
我的想法是安排一个批处理文件在 2 小时后定期运行。
最佳答案
你有几个选择:
- 使用 cron 作业。
- 如果您希望它更复杂,您可以使用 Apache Oozie 来安排您的作业。
- 如果您希望以分布式、可靠和容错的方式完成此操作,您可以使用 Apache Flume。借助 Flume,您甚至可以通过为数据源编写自定义 Flume 源直接从源收集数据,而无需先将数据聚合到本地 FS,然后再将其移动到 HDFS。
关于hadoop - 定时上传HDFS数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18090236/