python - 在 Python 中将单词分类

标签 python machine-learning deep-learning

我有大约 3,000 个单词,我想将它们分为大约 20-50 个不同的类别。我的话是您可能在公司名称中找到的典型短语。例如“面子”、“书籍”、“销售”、“力量”。

到目前为止我一直在研究的库是 pandas 和 scikit-learn。我想知道是否有一种机器学习或深度学习算法非常适合于此?

我一直在寻找的主题是分类:识别对象属于哪个类别,以及降维:减少要考虑的随机变量数量。

当我在 Google 上搜索将单词分类时,它会出现一些 child 难题,例如“用铅笔做的事情”——画画。或者“房子的一部分”——院子、房间。

最佳答案

要让深度学习解决这个问题,您必须开发一个大型数据集,很可能是手动开发。事实上,最大的自然语言处理数据集是手动创建的。 但即使你能够找到模型可以学习的数据集。那么梯度提升树等模型将是非常适合这样的多类分类的模型之一。一个经典的库是 xgboost。

关于python - 在 Python 中将单词分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35887212/

相关文章:

python - sklearn FeatureHasher 并行化

tensorflow - Keras-SegNet 使用 ImageDataGenerator 和 fit 或 fit_generator

python - 在 `tf.estimator` 中,如何在训练结束时(不是每次迭代时)将变量设置为 `tf.assign` ?

python - 使用 pyppeteer 创建 for 循环的理想方法

python - 创建 pandas-vectorized 'subtraction' 表

python - 为任意音频文件生成缩略图

Python 强类型列表

machine-learning - Tensorflow 中的成本敏感型学习

python-3.x - Keras 'flow_from_directory' 非常慢

machine-learning - 代替LBFGS,在稀疏自动编码器中使用梯度下降