我有大约 3,000 个单词,我想将它们分为大约 20-50 个不同的类别。我的话是您可能在公司名称中找到的典型短语。例如“面子”、“书籍”、“销售”、“力量”。
到目前为止我一直在研究的库是 pandas 和 scikit-learn。我想知道是否有一种机器学习或深度学习算法非常适合于此?
我一直在寻找的主题是分类:识别对象属于哪个类别,以及降维:减少要考虑的随机变量数量。
当我在 Google 上搜索将单词分类时,它会出现一些 child 难题,例如“用铅笔做的事情”——画画。或者“房子的一部分”——院子、房间。
最佳答案
要让深度学习解决这个问题,您必须开发一个大型数据集,很可能是手动开发。事实上,最大的自然语言处理数据集是手动创建的。 但即使你能够找到模型可以学习的数据集。那么梯度提升树等模型将是非常适合这样的多类分类的模型之一。一个经典的库是 xgboost。
关于python - 在 Python 中将单词分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35887212/