hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

标签 hadoop mahout semantic-analysis lsa latent-semantic-analysis

我一直致力于使用 Mahout 提供的 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob Hadoop 作业执行潜在语义分析，这些作业运行 Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现，可以在单个线程中，也可以最好是在多个线程中。

有这样的事情吗？

最佳答案

我不知道，我不这么认为，但写起来会很简单。您只需打开一个 SequenceFile.Reader 并针对每条记录，从值 Writable 中获取 Vector 并执行您想要的操作这可能是 10 行代码而不值得一个工具。

关于hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11289677/

上一篇：运行 start-all.sh 时出现 hadoop ClassNotFoundException

下一篇：hadoop - 如何挂载安全HDFS？

相关文章：

Hadoop:在 Apache Mahout 中实现贝叶斯算法时出错

compiler-construction - Clang 中的语义分析步骤是编译器的重要组成部分吗？

hadoop - BufferedReader和Bufferedwriter用于读取和写入HDFS文件

hadoop - MapReduce作业完成100％完成然后失败的原因有哪些？

ssh - hadoop 与 cygwin : hadoop-daemon. sh:未找到

apache - Apache Mahout 中的矢量化

Mahout bool 型基于用户的推荐器的相似度函数

c - 编译器的符号表和语义分析

c - 创建 AST 后进行语义检查

hadoop - 将数据从远程服务器加载到配置单元