java - Mahout:使用Java矢量化包含文档的文件夹

标签 java hadoop mahout

经过大量的搜索之后，恐怕找不到将目录中的文本文件转换为输出目录中的mahout vector的方法，因此可以再次运行LDA聚类。

我只有发现要处理Linux Shell脚本。

因为我正在使用Windows，所以我无法运行shell脚本，而且，我想避免使用cygwin。因此，实际上，我只能使用Java api。

我正在使用mahout 0.9。

最佳答案

您可以使用Mahout-Integration包中的SequenceFilesFromDirectory作业从目录中创建序列文件。

然后，您可以使用Mahout-MapReduce-Legacy软件包(0.9中的Mahout-Core软件包)中的SparseVectorsFromSequenceFiles作业创建Mahout稀疏 vector 。

这些分别是seqdirectory和seq2sparse的驱动程序，其参数可以在这里找到:mahout.apache.org/users/basics/creating-vectors-from-text.html

关于java - Mahout:使用Java矢量化包含文档的文件夹，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23740937/

上一篇：java - 如何填写Mapper？

下一篇：c# - Windows中带有MR2的NullPointerException

java - 将 Apache Mahout 与 Ruby on Rails 结合使用

java - 如何使用MultipleOutputs <KEYOUT，VALUEOUT>将输出数据写入多个输出

java - Toast 不适用于参数

java - 使用 Apache Cayenne 将对象更新到数据库

Hadoop multiple -put 命令变慢

hadoop - 如何比较 hive 中的复杂数据类型列

hadoop - Hadoop字数统计示例

java - 如何在 mahout 中矢量化文本文件？

java - mhout 中的谷本系数仅返回 1.0 作为预测值