我必须对一长串单词实现文本分类。我定义了一些类别,例如如果“英国”一词在列表中,它将位于“地区”之下。如果单词是“Pizza”,它将属于“food”类别。
如何将不同类别的单词分类?有没有开源工具可以做到这一点?
最佳答案
我不完全确定你要做什么,但如果你想要为多个类别建立一个列表代表词,那么你可以通过选择前 N 个最常见的词来做到这一点,不包括stop words ,来自代表每个类别的一组文档。这是创建非常基本的本体的简单方法。
例如,要创建一组关于食物 的词,您可以在网络上抓取 recipies和 menus 然后从中选择出现频率最高的单词。我希望一旦你排除了停用词,你就会有一个很好的与食物相关的词列表。对于与编程相关的词,您可以抓取 stackoverflow.com 等...
话又说回来,这可能不是你想要做的......
关于java - 如何将单词归类到相应的类别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4844825/