我正在关注 this example来自用于计算一堆文档的 TF-IDF 的 Spark 文档。 Spark 使用散列技巧进行此计算,因此最后您会得到一个包含散列单词和相应权重的 Vector 但是......我如何从散列中取回单词?
我真的必须对所有单词进行哈希处理并将它们保存在 map 中,以便以后遍历它以查找关键字吗?有没有更高效的方式内置Spark?
提前致谢
最佳答案
HashingTF中String到hash的转换使用 org.apache.spark.util.Utils.nonNegativeMod(int, int) 得到 0 到 numFeatures
(默认 2^20)之间的正整数.
原字符串丢失;无法将生成的整数转换为输入字符串。
关于java - Spark TF-IDF 从哈希中获取单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26831125/