python - 我想实现用于文本分类的机器学习或深度学习模型(100 个类别)

标签 python machine-learning text-classification multilabel-classification

我有一个与电影情节及其类型相似的数据集。类数在 100 左右。对于这 100 类分类,我应该选择什么算法?分类是多标签的,因为一部电影可以有多种类型 请推荐以下任何人。如果您愿意,您可以随意推荐任何其他型号。

1.Naive Bayesian
2.Neural networks
3.SVM
4.Random forest
5.k nearest neighbours

如果你还提供了必要的Python库,将会很有用

最佳答案

机器学习工程的一个重要步骤是正确检查数据。由此,您将获得一些见解,从而决定选择哪种算法。有时,您可能会尝试多种算法并比较模型,以确保您在数据上尽了最大努力。

由于您没有透露您的数据,我只能给您以下建议:如果您的数据“简单”,这意味着您只需要很少的特征和它们的轻微组合来解决任务,请使用朴素贝叶斯或k-最近邻。如果您的数据是“中等”困难,则使用随机森林或 SVM。如果解决任务需要一个非常复杂的决策边界,以非线性方式组合多个维度的特征,请选择神经网络架构。

我建议你使用 python 和 scikit-learn 包来支持 SVM 或随机森林或 k-NN。 对于神经网络,请使用 keras。

很抱歉,我无法为您提供您可能期望解决问题的方法。你的问题提出得非常广泛。

关于python - 我想实现用于文本分类的机器学习或深度学习模型(100 个类别),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58990776/

相关文章:

machine-learning - 为什么我的训练集在类分布数量方面也应该倾斜,仅仅因为我的测试集倾斜

python - 当一个主题太宽泛而另一个主题非常狭窄时,如何平衡主题、两类数据集?

python - Python 中的布鲁塞尔芽菜游戏

python + argparse - 如何从命令行获取可选参数的顺序

python - python3 上的 FileNotFoundError,即使文件确实存在

python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python

python - 列出表中存在数据或 NULL 的所有组合的算法

machine-learning - 如何将 AUC 和平均 11 点精度/召回率结合起来?

python - Tensorflow梯度为0,权重不更新

machine-learning - 与标签一对一匹配以进行文本分类