algorithm - 对单词和类别值进行分类

标签 algorithm classification

我们今天在类里面布置了一道算法题,作为“如果你想出了一个解决方案,你就不必做这门课”。所以当然,我们都认为我们会试一试。

基本上,我们得到了一个包含 100 个单词和 10 个类别的数据库。单词或类别之间没有匹配项。所以它基本上是一个包含 100 个单词和 10 个类别的列表。

我们必须将单词“放置”到正确的类别中 - 也就是说,我们必须“弄清楚”如何将单词放入正确的类别中。因此,我们必须“理解”这个词,然后通过算法将其归入最合适的类别。

即其中一个词是“钓鱼”类别“运动”--> 所以这将进入这一类别。单词和类别之间存在一些重叠,因此某些单词可能属于多个类别。

如果我们弄清楚了,我们必须增加样本大小,并且具有“最佳”匹配百分比的人获胜。

有人知道如何开始这样的事情吗?或者任何资源?最好在 C# 中?

即使是关键字 DB 或其他东西也可能有帮助?有人知道有免费的吗?

最佳答案

首先你需要样本文本来分析,得到单词之间的关系。 用 latent semantic analysis 分类在 Latent Semantic Analysis approaches to categorization 中描述.

另一种方法是朴素贝叶斯文本分类。需要具有指定类别的示例文本。在学习步骤中,程序学习不同的类别以及单词在分配给类别的文本中出现的可能性,请参阅 bayes spam filtering .我不知道这对单个词的效果如何。

关于algorithm - 对单词和类别值进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/949932/

相关文章:

algorithm - 二分查找小于或等于查找值的最接近值

python - (Python Scipy) 如何展平 csr_matrix 并将其附加到另一个 csr_matrix?

python - 使用对数刻度标准化分类器分数以进行比较

python - 评估预测的准确性

python - 将递归转换为尾递归

algorithm - 求和间隔

python - 有向图中的最大简单循环

algorithm - 为什么算法第四版中快速排序的最坏情况成本与我计算的成本不匹配?

machine-learning - `sklearn.model_selection.RandomizedSearchCV` 是如何工作的?

r - 如何使用r中的ROCR软件包绘制ROC曲线*仅带有分类列联表*