我们今天在类里面布置了一道算法题,作为“如果你想出了一个解决方案,你就不必做这门课”。所以当然,我们都认为我们会试一试。
基本上,我们得到了一个包含 100 个单词和 10 个类别的数据库。单词或类别之间没有匹配项。所以它基本上是一个包含 100 个单词和 10 个类别的列表。
我们必须将单词“放置”到正确的类别中 - 也就是说,我们必须“弄清楚”如何将单词放入正确的类别中。因此,我们必须“理解”这个词,然后通过算法将其归入最合适的类别。
即其中一个词是“钓鱼”类别“运动”--> 所以这将进入这一类别。单词和类别之间存在一些重叠,因此某些单词可能属于多个类别。
如果我们弄清楚了,我们必须增加样本大小,并且具有“最佳”匹配百分比的人获胜。
有人知道如何开始这样的事情吗?或者任何资源?最好在 C# 中?
即使是关键字 DB 或其他东西也可能有帮助?有人知道有免费的吗?
最佳答案
首先你需要样本文本来分析,得到单词之间的关系。 用 latent semantic analysis 分类在 Latent Semantic Analysis approaches to categorization 中描述.
另一种方法是朴素贝叶斯文本分类。需要具有指定类别的示例文本。在学习步骤中,程序学习不同的类别以及单词在分配给类别的文本中出现的可能性,请参阅 bayes spam filtering .我不知道这对单个词的效果如何。
关于algorithm - 对单词和类别值进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/949932/