hadoop - 通过API将XML数据降落到Hadoop中

标签 hadoop mapreduce hbase flume apache-storm

我们正在通过API接收大量XML数据。为了处理这些大数据集,我们计划在Hadoop中进行处理。

需要您的帮助以了解如何有效地将数据引入Hadoop。有哪些可用的工具?是否有可能使这些数据实时?

请提供您的输入。

谢谢你的帮助。

最佳答案

由于您正在接收巨大的数据,因此合适的方法,恕我直言,将使用诸如Flume之类的聚合工具。 Flume是一项分布式,可靠且可用的服务,用于从不同类型的源有效地收集,聚合大量数据并将其移入Hadoop集群。

您可以根据需要轻松编写自定义源,以收集数据。您可能会发现此link有助于入门。它提供了一个自定义的Flume源,该源旨在连接到Twitter Streaming API并将原始JSON格式的推文提取到HDFS中。您可以为xml数据尝试类似的方法。

您可能还想看看Apache Chukwa,它的作用相同。

高温超导

关于hadoop - 通过API将XML数据降落到Hadoop中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17977346/

相关文章:

scala - SparkContext textFile的InputPath语法

amazon-web-services - 使用 Elastic MapReduce 进行文件处理 - 没有 Reducer 步骤?

hadoop - org.apache.hadoop.fs.s3native.NativeS3FileSystem 未找到

python - 我应该学习/使用 MapReduce 或其他类型的并行化来完成这项任务吗?

ubuntu - 清除 Zookeeper 数据目录

hadoop - Parquet vs ORC vs ORC with Snappy

linux - 在 Ubuntu Linux 上运行 Hadoop(多节点集群)

hbase - HBase 是否有任何 C 库?

尝试连接到 HBase 时出现 java.lang.NumberFormatException

hadoop - Elasticsearch-Hadoop如何在spark程序中进行批量搜索