我有一组分类的文本文件。我想对另一大组文本文件进行分类以在我的研究中使用。有没有好的方法来比较它们?
我认为基于 SVM 的方法很有用,但是是否有一个简单且有文档记录的库来使用此类算法?
最佳答案
我不太了解SVM,但是LingPipe可能对你真的有帮助。 link是专门关于文档分类(自动或引导)的教程。
此外,请研究相互关联的搜索产品 Lucene(搜索库)、Solr(搜索服务器应用程序)和 Carrot2(用于“聚类”搜索结果)。该领域应该有一些有趣的工作适合您。
关于java - java中的文本分类库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9052684/