几乎所有的例子都是基于数字的。在文本文档中,我有文字而不是数字。
那么你能告诉我如何使用这些算法进行文本文档分类的简单示例吗?
我不需要代码示例,只需要逻辑
伪代码将有很大帮助
最佳答案
常用的方法是使用词袋模型 (http://en.wikipedia.org/wiki/Bag_of_words_model),其中分类器将学习文本中单词的存在,这很简单,但效果却出奇地好。
另外,这里有一个类似的问题:Prepare data for text classification using Scikit Learn SVM
关于svm - 如何使用 SVM 和 KNN 对文本文档进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16694088/