python - 如何训练分类器从语法语言中检测白话?

标签 python machine-learning nlp text-classification

我正在使用文本分类对阿拉伯方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器能够检测这些方言的正式(标准或语法)语言,即 MSA(现代标准阿拉伯语)。

我应该使用语法分析吗?建立语言模型?或者我像处理方言一样,收集 MSA 推文然后训练它们?

最佳答案

您可以为该语言的每种方言训练语言模型。然后,给定一个句子,找到每个语言模型返回的(log)概率,并将其分配给返回高分的语言模型。

p* = argmax p_i p_i(sentence)

其中 p_i 是方言 i 的语言模型。

语言模型是单词序列上的概率分布。给定一个句子,比如长度为 m,它会为整个序列分配一个概率 P(w1, ... ,wm)。因此该句子将属于 P_i(w) 较高的方言,其中 P_i 是方言 i 的语言模型。

关于python - 如何训练分类器从语法语言中检测白话?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56129349/

相关文章:

machine-learning - NLP:计算文档属于某个主题(带有词袋)的概率?

javascript - 在 python 中部署时合并 javascript 文件

python - 在 Mac OS X 10.8.5 (Mountain Lion) 上使用 Enthought Canopy python 编辑器运行 matplotlib.pyplot 时没有显示绘图窗口

machine-learning - 训练和验证精度高,测试精度差

opencv - 从机器学习算法中获得负面结果

python - 从 python3.3 中的两个嵌套列表添加一元值

python - 根据条件替换多列中的值

python - 如何在不同形状的 ndarray 列表上使用 numpy.amax() ?

r - R 中的 C5.0 机器学习,测试数据准确率 100%

python - 使用自定义语料库在 NLTK 中训练 NER 模型