python - 在 Python 中将单词分类

已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。

我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便用事实和引文来回答。

已关闭 7 年前。

我有大约 3,000 个单词，我想将它们分为大约 20-50 个不同的类别。我的话是您可能在公司名称中找到的典型短语。例如“面子”、“书籍”、“销售”、“力量”。

到目前为止我一直在研究的库是 pandas 和 scikit-learn。我想知道是否有一种机器学习或深度学习算法非常适合于此？

我一直在寻找的主题是分类:识别对象属于哪个类别，以及降维:减少要考虑的随机变量数量。

当我在 Google 上搜索将单词分类时，它会出现一些 child 难题，例如“用铅笔做的事情”——画画。或者“房子的一部分”——院子、房间。

最佳答案

要让深度学习解决这个问题，您必须开发一个大型数据集，很可能是手动开发。事实上，最大的自然语言处理数据集是手动创建的。但即使你能够找到模型可以学习的数据集。那么梯度提升树等模型将是非常适合这样的多类分类的模型之一。一个经典的库是 xgboost。

关于python - 在 Python 中将单词分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35887212/

相关文章：

python - sklearn FeatureHasher 并行化