java - 矩阵 TFIDF 的降维

标签 java matrix classification tf-idf

我计算了 TFIdf(词频,逆文档频率),我已经看到在这一步之后,有必要使用 LSI ,卡方检验等方法来减少我的矩阵的维数...,

我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以做到这一点,或者在教程中他们解释了我如何做到这一点,请告诉我

最佳答案

将 gensims 库用于 LSA、LDA。
它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行延迟读取。

关于java - 矩阵 TFIDF 的降维,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5479705/

相关文章:

java - Heroku 应用程序在本地运行但远程崩溃

java - 是否可以使用 hibernate 4 和 EJB 3.1 将 Multi-Tenancy 功能添加到 java 应用程序?

r - 避免矩阵乘法中 NA 的传播

objective-c - 我在 Objective-C 中的矩阵方面遇到问题

time - 多元时间序列分类

Java 方法未按预期执行。试图理解为什么

java - 我可以泛化以下代码吗?

使用函数进行 Matrix<double> 逐点运算

python - Tensorflow 中逻辑运算符的梯度

text - 测试时计算 IDF(如 TF-IDF)?