machine-learning - 文本挖掘中如何强调文章标题的重要性?

标签 machine-learning data-mining text-mining

在文本挖掘中使用词袋方法似乎是最简单的方法,但使用也最广泛。 但是当使用词袋时,你不能强调文本中的某些部分比其他部分更重要。 就我而言,我为每个示例提供了标题和摘要。 我想强调的是,标题和摘要中的单词并不具有相同的重要性,因此我不能只是连接字符串并在它们上构建 TF.IDF 矩阵。

分别为标题和摘要构建两个单独的 TF.IDF 矩阵,然后将它们连接起来是最明智的解决方案。我还能尝试做什么?

最佳答案

为什么不给标题中的文字增加更多的权重呢?

无论如何,您正在使用频率,而不是二进制变量。

关于machine-learning - 文本挖掘中如何强调文章标题的重要性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31963506/

相关文章:

监控摄像头位置数据库

full-text-search - 计算形容词频率的技巧

r - 朴素贝叶斯分类器仅根据先验概率做出决策

twitter - 使用朴素贝叶斯分类来识别 Twitter 用户的性别

python - 通过它们在 python 中的接近度来聚类值(机器学习?)

numpy - k 最近邻中的 ValueError : setting an array element with a sequence at fit(X, y)

machine-learning - 降低数据集的维数后,我得到了负特征值

machine-learning - 机器学习实践 : Writing algorithms yourself or using Weka?

python - 在关系数据库中查找统计相关性

r - R 中随时间变化的动态主题模型/主题