hadoop - Mahout 随机森林示例,无法识别数据的命令行参数

标签 hadoop mahout cloudera cloudera-cdh

命令:

hadoop jar /opt/cloudera/parcels/CDH-5.0.0-1.cdh5.0.0.p0.47/lib/mahout/mahout-examples-0.8-cdh5.0.0-job.jar org.apache.mahout.classifier.df.mapreduce.BuildForest –d advert-train.csv –ds advert-info –t 100 -o advert-model

产生错误:

org.apache.commons.cli2.OptionException: Unexpected –d while processing Options

这似乎不可能。我查看了源代码,-d 是必需的选项。


hadoop 版本

返回

Hadoop 2.3.0-cdh5.0.0

文件 advert-train.csv 和 advert-info 都存在于我的默认 HDFS 目录/users/cloudera

最佳答案

可以在此处找到在 mahout 中运行随机森林的详细说明: https://mahout.apache.org/users/classification/partial-implementation.html

我能够在 Cloudera CDH 5.0 中毫无问题地运行这个示例。我认为问题可能是由于配置或您还需要指定其他参数这一事实造成的。我只是使用 Cloudera 中的 mahout 命令来运行该示例。在您的情况下,命令是:

mahout org.apache.mahout.classifier.df.mapreduce.BuildForest 
-Dmapred.max.split.size=1874231 –d advert-train.csv –ds advert-info 
-sl 5 -p –t 100 -o advert-model

其中,

-Dmapred.max.split.size 应该指定 Hadoop 的最大值。每个分区的大小应约为数据集大小的 1/10

-sl用于指定随机选取的变量个数

-p 告诉 mahout 使用部分实现

其余的变量应该没问题。

关于hadoop - Mahout 随机森林示例,无法识别数据的命令行参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25148444/

相关文章:

java - hive 中的python udf

hadoop - 将 Hadoop MapReduce 限制为特定文件扩展名

hadoop - 为什么 Mahout 还没有线性回归

mahout - 聚类——稀疏向量和密集向量

shell - HDFS 中的文件重命名

hadoop - Cloudera CDH 无法为 tez-ui 启动 yarn timeline server

mysql - SQL:如何为每行随机抽取多个值

java - 如何使用 AvroParquetWriter 并通过 AmazonS3 api 写入 S3?

cluster-analysis - Mahout 二进制数据聚类

hadoop - hadoop作业实际处理时间