我们正在通过API接收大量XML数据。为了处理这些大数据集,我们计划在Hadoop中进行处理。
需要您的帮助以了解如何有效地将数据引入Hadoop。有哪些可用的工具?是否有可能使这些数据实时?
请提供您的输入。
谢谢你的帮助。
最佳答案
由于您正在接收巨大的数据,因此合适的方法,恕我直言,将使用诸如Flume之类的聚合工具。 Flume是一项分布式,可靠且可用的服务,用于从不同类型的源有效地收集,聚合大量数据并将其移入Hadoop集群。
您可以根据需要轻松编写自定义源,以收集数据。您可能会发现此link有助于入门。它提供了一个自定义的Flume源,该源旨在连接到Twitter Streaming API并将原始JSON格式的推文提取到HDFS中。您可以为xml数据尝试类似的方法。
您可能还想看看Apache Chukwa,它的作用相同。
高温超导
关于hadoop - 通过API将XML数据降落到Hadoop中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17977346/