我计算了 TFIdf(词频,逆文档频率),我已经看到在这一步之后,有必要使用 LSI ,卡方检验等方法来减少我的矩阵的维数...,
我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以做到这一点,或者在教程中他们解释了我如何做到这一点,请告诉我
最佳答案
将 gensims 库用于 LSA、LDA。
它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行延迟读取。
关于java - 矩阵 TFIDF 的降维,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5479705/