xml - 使用 Hadoop MapReduce 处理 XML

标签 xml hadoop xml-parsing mapreduce

我想要加载并解析一些 PB 级的 XML 数据。在对如何在 hadoop 中处理 XML 进行了大量研究之后,我发现 XML 必须在 Map Reduce 中作为整个文件进行处理。

如果我将整个 XML 作为单个输入拆分提供给我的 MapReduce,那么它将不会利用 hadoop 的分布式并行处理功能,因为只有一个 Mapper 会进行处理。

我理解正确吗?如何克服这个问题?

请提出建议

最佳答案

您可以尝试使用 Mahout 的 XMLInputFormat 。 XMLInputFormat 负责使用指定的开始和结束标记来确定 XML 输入文件中的记录边界。

你可以使用这个link作为如何使用 XMLInputFormat 解析 XML 文件的引用。

关于xml - 使用 Hadoop MapReduce 处理 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27519784/

相关文章:

java - Hadoop 2.7.4 名称节点未启动 : Unsupported major. 次要版本 52.0

ios - 无法在容器 View 中加载 xml 数据

javascript - Xpath:如果子存在,如何在 xpath 中选择父注释的值

XML文件和&字符?

hadoop - 我们可以根据类型(MR、SPARK)将 hadoop 应用程序分配到公平调度程序队列中吗?

scala - 在 Scala 中,如何获取 XML 节点的文本而不获取其子节点的文本?

javascript - 如何使用 $.parseXML 解析包含客户端属性的 xml 字符串?

xml nant 和 ó 字符

java - 如何以编程方式调用 Android 布局 (XML)?

hadoop - 运行Apache Mahout K-Means时出错