我尝试使用 mahout 部署 20- 新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计数据,
例如:bayes-model目录包含以下子目录,
trainer-tfIdf trainer-thetaNormalizer 训练器权重
其中包含 part-0000 文件。我想阅读文件的内容以便更好地理解,cat 命令似乎不起作用,它打印了一些垃圾。
感谢任何帮助。
谢谢
最佳答案
“part-00000”文件由 Hadoop 创建,采用 Hadoop 的 SequenceFile
格式,包含特定于 Mahout 的值。您不能将它们作为文本文件打开,不。您可以在 Mahout 中找到实用程序类 SequenceFileDumper
,它会尝试将内容作为文本输出到标准输出。
至于这些值的开头,它们是由 Mahout 执行的基于 Hadoop 的多阶段计算的中间结果。您可以阅读代码以更好地了解这些是什么。例如,“tfidf”目录包含与词频相关的中间计算。
关于hadoop - Mahout - 朴素贝叶斯,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8118645/