hadoop - 通过API将XML数据降落到Hadoop中

标签 hadoop mapreduce hbase flume apache-storm

我们正在通过API接收大量XML数据。为了处理这些大数据集，我们计划在Hadoop中进行处理。

需要您的帮助以了解如何有效地将数据引入Hadoop。有哪些可用的工具？是否有可能使这些数据实时？

请提供您的输入。

谢谢你的帮助。

最佳答案

由于您正在接收巨大的数据，因此合适的方法，恕我直言，将使用诸如Flume之类的聚合工具。 Flume是一项分布式，可靠且可用的服务，用于从不同类型的源有效地收集，聚合大量数据并将其移入Hadoop集群。

您可以根据需要轻松编写自定义源，以收集数据。您可能会发现此link有助于入门。它提供了一个自定义的Flume源，该源旨在连接到Twitter Streaming API并将原始JSON格式的推文提取到HDFS中。您可以为xml数据尝试类似的方法。

您可能还想看看Apache Chukwa，它的作用相同。

高温超导

关于hadoop - 通过API将XML数据降落到Hadoop中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17977346/

上一篇：file - 比较两个大文件以调和财务交易

下一篇：hadoop - Hadoop命令启用两个不同的虚拟机？

amazon-web-services - 使用 Elastic MapReduce 进行文件处理 - 没有 Reducer 步骤？

hadoop - org.apache.hadoop.fs.s3native.NativeS3FileSystem 未找到

python - 我应该学习/使用 MapReduce 或其他类型的并行化来完成这项任务吗？

ubuntu - 清除 Zookeeper 数据目录

hadoop - Parquet vs ORC vs ORC with Snappy

linux - 在 Ubuntu Linux 上运行 Hadoop(多节点集群)

hbase - HBase 是否有任何 C 库？

尝试连接到 HBase 时出现 java.lang.NumberFormatException

hadoop - Elasticsearch-Hadoop如何在spark程序中进行批量搜索