machine-learning - 文本内容相关性检查

我需要检查特定网页上内容的相关性。我有几千个网页来检查这一点。检查页面标题是否与页面内容相关的最佳方法是什么。

最佳答案

你的问题有点含糊，当你说:

What is the best way to check if the page title is relevant to the content on the page.

在您的问题背景下如何定义相关性？

我不知道这是否是您想要的，但我想到了几件事，本质上是比较两个文档的相似程度，一个文档是标题，另一个文档是描述。

您可以考虑为两者生成向量表示的方法，并比较它们的相似程度。

唯一的考虑因素是标题的大小与网页内容相比非常小。

关于machine-learning - 文本内容相关性检查，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53128308/

相关文章：

topic-modeling - 主题建模，但具有已知主题？