algorithm - 对单词和类别值进行分类

我们今天在类里面布置了一道算法题，作为“如果你想出了一个解决方案，你就不必做这门课”。所以当然，我们都认为我们会试一试。

基本上，我们得到了一个包含 100 个单词和 10 个类别的数据库。单词或类别之间没有匹配项。所以它基本上是一个包含 100 个单词和 10 个类别的列表。

我们必须将单词“放置”到正确的类别中 - 也就是说，我们必须“弄清楚”如何将单词放入正确的类别中。因此，我们必须“理解”这个词，然后通过算法将其归入最合适的类别。

即其中一个词是“钓鱼”类别“运动”--> 所以这将进入这一类别。单词和类别之间存在一些重叠，因此某些单词可能属于多个类别。

如果我们弄清楚了，我们必须增加样本大小，并且具有“最佳”匹配百分比的人获胜。

有人知道如何开始这样的事情吗？或者任何资源？最好在 C# 中？

即使是关键字 DB 或其他东西也可能有帮助？有人知道有免费的吗？

最佳答案

首先你需要样本文本来分析，得到单词之间的关系。用 latent semantic analysis 分类在 Latent Semantic Analysis approaches to categorization 中描述.

另一种方法是朴素贝叶斯文本分类。需要具有指定类别的示例文本。在学习步骤中，程序学习不同的类别以及单词在分配给类别的文本中出现的可能性，请参阅 bayes spam filtering .我不知道这对单个词的效果如何。

关于algorithm - 对单词和类别值进行分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/949932/

相关文章：

algorithm - 二分查找小于或等于查找值的最接近值