hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

标签 hadoop mahout semantic-analysis lsa latent-semantic-analysis

我一直致力于使用 Mahout 提供的 SparseVectorsFromSequenceFilesRowIdJobRowSimilarityJob Hadoop 作业执行潜在语义分析,这些作业运行 Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现,可以在单个线程中,也可以最好是在多个线程中。

有这样的事情吗?

最佳答案

我不知道,我不这么认为,但写起来会很简单。您只需打开一个 SequenceFile.Reader 并针对每条记录,从值 Writable 中获取 Vector 并执行您想要的操作 这可能是 10 行代码而不值得一个工具。

关于hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11289677/

相关文章:

Hadoop:在 Apache Mahout 中实现贝叶斯算法时出错

compiler-construction - Clang 中的语义分析步骤是编译器的重要组成部分吗?

hadoop - BufferedReader和Bufferedwriter用于读取和写入HDFS文件

hadoop - MapReduce作业完成100%完成然后失败的原因有哪些?

ssh - hadoop 与 cygwin : hadoop-daemon. sh:未找到

apache - Apache Mahout 中的矢量化

Mahout bool 型基于用户的推荐器的相似度函数

c - 编译器的符号表和语义分析

c - 创建 AST 后进行语义检查

hadoop - 将数据从远程服务器加载到配置单元