machine-learning - Mahout 分类器训练数据的预处理

标签 machine-learning mahout

我正在训练 mahout 分类器。我是否需要对训练数据进行词干提取、小写和停用词删除,或者 mahout 会在训练过程中处理此问题。下面的命令是我用于训练的。

$MAHOUT_HOME/bin/mahout trainclassifier -i category-training-data -o category-bayes-model -type bayes -ng 1 -source hdfs

最佳答案

它不进行此类预处理,不。

关于machine-learning - Mahout 分类器训练数据的预处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15540276/

相关文章:

python - 如何存储/保存和恢复tensorflow DNNClassifier(没有要保存的变量)

从一组中选择 n 个向量同时最小化成本的算法

hadoop - 在mahount伪分布中是否显示RowSimilarityJob和ItemSimilarityJob?

java - 如何追溯这个编译错误?

python - 主题或标签建议算法

python - 具有基于列名称的图例的 T-SNE 散点图

tensorflow - 批量梯度下降的交叉验证

machine-learning - MapR 是否具有可扩展的机器学习算法。像马胡特一样?

java - 错误的值类:org.apache.mahout.math.VarLongWritable不是类org.apache.mahout.math.VectorWritable

mahout - 在 mahout-0.6 上运行 “Mahout in Action” 中的示例代码时出现 IOException