classification - 特征向量: calculation of weights for training vs test set

标签 classification feature-extraction document-classification

我正在使用支持向量机进行文本分类,但基本上我对测试集特征向量的计算感到困惑。

对于训练特征向量,我为每个训练数据采用 TF-IDF 向量,并使用 TF-IDF 值构建特征矩阵 [文档 x 术语]。

但是计算测试集的特征向量怎么样?我应该只使用训练集中的 TF-IDF 值来计算它吗?

例如:在特定单词“apple”的训练集中,文档频率为 5。 对于测试集,我应该使用“apple”值 5 吗?或者根据测试集重新计算TF-IDF?或者更确切地说,我在计算特征向量时是否走错了路?

提前致谢!

最佳答案

您应该使用训练集计算每个术语的 IDF(逆文档频率)。然后,您应该对测试集中的文档使用相同的 IDF。另一方面,TF 取决于您尝试分类的具体文档,因此对于测试和训练集中的不同文档,TF 会有所不同。

关于classification - 特征向量: calculation of weights for training vs test set,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16124602/

相关文章:

opencv - Opencv 中的视觉词袋

java - 如何在java代码中结合weka和LibSVM

Python牛奶库: object weights issue

python - pycaret 上的概率与预测标签不匹配

matlab - HOG描述符结果的SVM训练(在Matlab中)

search - 给定单词/短语的白名单和黑名单,查找文本的相关性

machine-learning - 使用 Mallet 进行序列标记的文本分类/文档分类

python - TensorFlow 对象检测 API 奇怪的行为

python - 支持= 'None'

python - 为什么我的 scikit 学习 HashingVectorizo​​r 给我 float binary = True 集?