我是这个非常有用的问答网站的新手,我的英语不是很好,对此深表歉意。
我对一个我认为不难做的网络项目很感兴趣,它是一个简化的冲浪。
Algorithm description 1
Algorithm description 2
此算法确保 child 非常简单,因为它可以快速分析网页内容并找到相关信息。
有人能告诉我这个算法是如何运作的吗?
根据什么原则使该算法发挥作用?
谢谢!
最佳答案
我刚刚回答的很相似question .在您的特定情况下,手动创建主题列表、使用机器学习对某些示例进行训练,然后在搜索过程中对每个搜索结果进行分类是有意义的strong> 主题之一。因此,您将获得按主题分组的搜索结果。
UPD。好的,这是一种可能方法的分步说明。
首先看一下我最近的post关于文档相似度计算。然后执行以下操作:
- 实现程序以计算 2 个文本之间的相似性(如我的帖子中所述)或找到相似的东西。
- 创建多个文档集,每个文档集对应您要使用的每个类别(主题)(食品、IT、政治、医学等)。
- 计算每个集合中所有文档的公共(public)向量。
- 当用户执行搜索时,为您找到的每个结果计算向量。
- 将每个结果归入具有最相似公共(public)向量的类别。
- 按计算类别对结果进行分组。
关于algorithm - NLP算法原理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8780770/