java - Spark TF-IDF 从哈希中获取单词

标签 java hash apache-spark tf-idf

我正在关注 this example来自用于计算一堆文档的 TF-IDF 的 Spark 文档。 Spark 使用散列技巧进行此计算,因此最后您会得到一个包含散列单词和相应权重的 Vector 但是......我如何从散列中取回单词?

我真的必须对所有单词进行哈希处理并将它们保存在 map 中,以便以后遍历它以查找关键字吗?有没有更高效的方式内置Spark?

提前致谢

最佳答案

HashingTF中String到hash的转换使用 org.apache.spark.util.Utils.nonNegativeMod(int, int) 得到 0 到 numFeatures(默认 2^20)之间的正整数.

原字符串丢失;无法将生成的整数转换为输入字符串。

关于java - Spark TF-IDF 从哈希中获取单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26831125/

相关文章:

arrays - 查找哈希数组中的重复值

scala - Spark 无法计算表达式 : lag of a window expression

scala - Map 不能在 scala 中序列化吗?

java - Hibernate - 标准查询

java - 电子学习平台技术、设计和架构

java - 对于原始长整型有效的compareTo()

javascript - 如何区分浏览器返回和用户手动更改位置哈希

hadoop - hive 哈希进行A/B测试

java - 以不同用户登录身份运行 Java 应用程序

scala - 如何将Scala作业提交给Spark?