c# - 文本分类算法

标签 c# artificial-intelligence machine-learning text-processing


我有数百万个简短(最多 30 个单词)的文档,我需要将它们分成几个已知的类别。一个文档有可能匹配几个类别(很少,但有可能)。文档也可能与任何类别都不匹配(也很少)。我还有数百万份已经分类的文件。我应该使用什么算法来完成这项工作。我不需要那么快。我需要确保算法正确分类(尽可能)。
我应该使用什么算法? in在C#中有实现吗?
感谢您的帮助!

最佳答案

看看term frequency and inverse document frequency还有cosine similarity找到重要的词来创建类别并根据相似性将文档分配给类别

编辑:

找到一个例子here

关于c# - 文本分类算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3890734/

相关文章:

c# - MySqlHelper 类中的事务锁

c# - 无法确定条件表达式的类型,因为 'int' 和 '<null>' 之间没有隐式转换

artificial-intelligence - 遗传交叉函数

artificial-intelligence - 更好的游戏启发式函数(AI Minimax)

python - Keras 回归多输出

machine-learning - 为什么当使用这个具有多个输出的简单模型时,Keras 会提示缺少梯度?

apache-spark - 如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

c# - 我如何在 asp.net 中对下拉项目进行排序?

c# - 在另一个程序中运行一个程序?

python - 有没有比我做的更好的方法来猜测可能的未知变量而不用蛮力?机器学习?