hadoop - 定时上传HDFS数据

标签 hadoop

我正在做一个项目，我会实时收集数据。我想定期将该数据从我的本地机器上传到 HDFS。这里的频率将每隔几个小时。

我的想法是安排一个批处理文件在 2 小时后定期运行。

最佳答案

你有几个选择:

使用 cron 作业。
如果您希望它更复杂，您可以使用 Apache Oozie 来安排您的作业。
如果您希望以分布式、可靠和容错的方式完成此操作，您可以使用 Apache Flume。借助 Flume，您甚至可以通过为数据源编写自定义 Flume 源直接从源收集数据，而无需先将数据聚合到本地 FS，然后再将其移动到 HDFS。

关于hadoop - 定时上传HDFS数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18090236/

上一篇：hadoop - 我可以在同一台 Linux 机器上有两个 sudo 用户吗？

下一篇：hadoop - 使用 JOIN 语法的 Hive RLIKE

相关文章：

junit - Hadoop JUnit 测试向/从 hdfs 写入/读取

python - Spark统计函数Python

hadoop - 计算Hive中某列类别的百分比

eclipse - HDFS Web 界面替代方案

具有数百万条记录插入的 Hadoop 后端

java - 如何将配置从配置单元脚本传递到 UDF

java - 如何附加ORC文件

hadoop - 使用 bootstrap 替换 EMR 上的默认 jar

hadoop - 如何向 Tez 添加额外的库以支持不同的 HDFS 后端？

json - 德鲁伊 Parquet 摄取性能差

©2024 IT工具网联系我们