在文本挖掘中使用词袋方法似乎是最简单的方法,但使用也最广泛。 但是当使用词袋时,你不能强调文本中的某些部分比其他部分更重要。 就我而言,我为每个示例提供了标题和摘要。 我想强调的是,标题和摘要中的单词并不具有相同的重要性,因此我不能只是连接字符串并在它们上构建 TF.IDF 矩阵。
分别为标题和摘要构建两个单独的 TF.IDF 矩阵,然后将它们连接起来是最明智的解决方案。我还能尝试做什么?
最佳答案
为什么不给标题中的文字增加更多的权重呢?
无论如何,您正在使用频率,而不是二进制变量。
关于machine-learning - 文本挖掘中如何强调文章标题的重要性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31963506/