我一直致力于使用 Mahout 提供的 SparseVectorsFromSequenceFiles
、RowIdJob
和 RowSimilarityJob
Hadoop 作业执行潜在语义分析,这些作业运行 Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现,可以在单个线程中,也可以最好是在多个线程中。
有这样的事情吗?
最佳答案
我不知道,我不这么认为,但写起来会很简单。您只需打开一个 SequenceFile.Reader
并针对每条记录,从值 Writable
中获取 Vector
并执行您想要的操作 这可能是 10 行代码而不值得一个工具。
关于hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11289677/