java - Spark TF-IDF 从哈希中获取单词

我正在关注 this example来自用于计算一堆文档的 TF-IDF 的 Spark 文档。 Spark 使用散列技巧进行此计算，因此最后您会得到一个包含散列单词和相应权重的 Vector 但是......我如何从散列中取回单词？

我真的必须对所有单词进行哈希处理并将它们保存在 map 中，以便以后遍历它以查找关键字吗？有没有更高效的方式内置Spark？

提前致谢

最佳答案

HashingTF中String到hash的转换使用 org.apache.spark.util.Utils.nonNegativeMod(int, int) 得到 0 到 numFeatures(默认 2^20)之间的正整数.

原字符串丢失；无法将生成的整数转换为输入字符串。

关于java - Spark TF-IDF 从哈希中获取单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26831125/

相关文章：

arrays - 查找哈希数组中的重复值