hadoop - Mahout - 朴素贝叶斯

标签 hadoop mahout

我尝试使用 mahout 部署 20- 新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计数据,

例如:bayes-model目录包含以下子目录,

trainer-tfIdf trainer-thetaNormalizer 训练器权重

其中包含 part-0000 文件。我想阅读文件的内容以便更好地理解,cat 命令似乎不起作用,它打印了一些垃圾。

感谢任何帮助。

谢谢

最佳答案

“part-00000”文件由 Hadoop 创建,采用 Hadoop 的 SequenceFile 格式,包含特定于 Mahout 的值。您不能将它们作为文本文件打开,不。您可以在 Mahout 中找到实用程序类 SequenceFileDumper,它会尝试将内容作为文本输出到标准输出。

至于这些值的开头,它们是由 Mahout 执行的基于 Hadoop 的多阶段计算的中间结果。您可以阅读代码以更好地了解这些是什么。例如,“tfidf”目录包含与词频相关的中间计算。

关于hadoop - Mahout - 朴素贝叶斯,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8118645/

相关文章:

java - Add() 与 addAll() 插入 Java 优先堆

sql - Hive-SUM中的ELSE

hadoop - Mahout:如何使用随机森林进行在线预测

apache - 如何在 Mahout K 均值聚类中维护数据条目 ID

java - 将 Lucene 索引转换为 Mahout vector

machine-learning - 识别与 mahout 聚类相关的文档

hadoop - MPI 读写 HDFS

java - hive :Kryo 异常

java - 无法从Eclipse连接到Hive

java - 绝对 URI 中的相对路径 : rsrc:mahout-core-0. 7.jar