machine-learning - 文本内容相关性检查

标签 machine-learning nlp topic-modeling

Amazon.in pic

我需要检查特定网页上内容的相关性。我有几千个 网页来检查这一点。检查页面标题是否与页面内容相关的最佳方法是什么。

最佳答案

你的问题有点含糊,当你说:

What is the best way to check if the page title is relevant to the content on the page.

在您的问题背景下如何定义相关性?

我不知道这是否是您想要的,但我想到了几件事,本质上是比较两个文档的相似程度,一个文档是标题,另一个文档是描述。

您可以考虑为两者生成向量表示的方法,并比较它们的相似程度。

  1. Jaccard 相似度使用标记作为两个集合(即文档)的元素
  2. TF-IDF 加权向量并与余弦相似度进行比较
  3. 计算每个文档的分布主题模型/LDA,并使用 Kullback-Leibler 散度进行比较
  4. 将文档编码为某种密集向量(doc2vec,或通过 LSTM 读取它们并保留最后的状态),然后比较两个向量。

唯一的考虑因素是标题的大小与网页内容相比非常小。

关于machine-learning - 文本内容相关性检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53128308/

相关文章:

topic-modeling - 主题建模,但具有已知主题?

r - 如何为 R 中的主题建模(topicmodels、lda、tm)准备数据?

linux - 如何在窗口上构建 mlpack

python - 如何设置具有任意运行次数的 Tensorboard?

nlp - 用于词性标注器的 Baum-Welch 算法

nlp - 如何避免 NLP 中的顺序处理?

scikit-learn - 为什么Sklearn LDA主题模型总是建议(选择)主题最少的主题模型?

artificial-intelligence - 脉冲(尖峰)神经网络是否优于循环神经网络?

python - scikit learn auc 函数的一些错误?

nlp - 计算梯度PyTorch 中嵌入向量的值