hadoop - 如何将xml mahout分类器jar添加到hadoop集群中，因为我不想将该库添加到hadoop classpath中

标签 hadoop xml-parsing mapreduce

我正在使用mahout-exmaples jar中存在的XMLInputFormat.class解析xml文件。但是在运行 map 的jar文件时减少我得到以下错误

错误:java.lang.RuntimeException:java.lang.ClassNotFoundException:类org.apache.mahout.classifier.bayes.XmlInputFormat未找到

请让我知道在多节点hadoop集群上运行时如何使这些jar可用。

最佳答案

在hadoop jar ...命令的“-libjars”命令行选项中包含所有mahout-examples JAR。该jar将放置在分布式缓存中，并且可用于所有作业的任务尝试。更具体地说，您将在本地节点上的${mapred.local.dir}/taskTracker/archive/${user.name}/distcache/… subdirectories之一中找到JAR。

有关更多详细信息，请引用此link。

关于hadoop - 如何将xml mahout分类器jar添加到hadoop集群中，因为我不想将该库添加到hadoop classpath中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36053616/

上一篇：docker - 使用Docker Compose创建多个容器

下一篇：apache - exec flume-ng之后，Apache Flume卡住了

相关文章：

hadoop - HDFS 中组和角色的使用

c# - 如何使用没有关联前缀的命名空间在 C# 中读取 XML 文档

hadoop - 为什么数据本地化不适用于Map Reduce流程中的排序和混洗阶段？

用c程序将xml文件转换为wbxml

python - 如何使用python解析非结构化xml文件？

java - 不是来自测试 hadoop mapreduce wordcount 的有效 JAR

hadoop - "commit of the task output"在OutputCommitter中是什么意思

hadoop - 将文件从本地复制到 HDFS

hadoop - HBase 和 HDFS 数据分隔符？

apache-spark - 没有作业正在运行时，Dataproc集群是否可以自动缩减为0个工作程序？