hadoop - 将数据传入和传出hadoop

标签 hadoop

我需要一个系统来分析大型日志文件。有一天,一位 friend 指导我使用 hadoop,它似乎非常适合我的需求。我的问题围绕将数据导入 hadoop-

是否可以让集群上的节点将数据传输到 HDFS 中?或者每个节点是否需要写入本地临时文件并在临时文件达到一定大小后提交该临时文件?是否可以附加到 HDFS 中的文件,同时在同一文件上运行查询/作业?

最佳答案

Fluentd日志收集器刚刚发布了它的WebHDFS plugin ,它允许用户立即将数据流式传输到 HDFS 中。它确实易于安装且易于管理。

enter image description here

当然,您可以直接从应用程序导入数据。下面是一个针对 Fluentd 发布日志的 Java 示例。

关于hadoop - 将数据传入和传出hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1088192/

相关文章:

hadoop - 无法在伪分布式模式下运行 Pig Script

apache - Apache Mahout 中的矢量化

hadoop - 为什么 tupleWritable 在传递给 reducer 时变空

scala - 使用 MRUnit 1.1.0 测试多个输出

apache - 为什么 Apache Avro 使用 JSON 来定义模式?

spring - 试图在 hadoop 集群上运行 spring boot 嵌入式 web 容器

hadoop - 如何使用Intel hadoop中的spark-shell从hdfs读取?

hadoop - Apache Nifi 处理器中的多值选项

Hadoop 配置 : mapred. * 与 mapreduce.*

hadoop - Hive 查询 cli 有效,同样通过 hue 失败