python - 如何训练分类器从语法语言中检测白话？

我正在使用文本分类对阿拉伯方言进行分类，到目前为止我有 4 种方言。但是，现在我希望分类器能够检测这些方言的正式(标准或语法)语言，即 MSA(现代标准阿拉伯语)。

我应该使用语法分析吗？建立语言模型？或者我像处理方言一样，收集 MSA 推文然后训练它们？

最佳答案

您可以为该语言的每种方言训练语言模型。然后，给定一个句子，找到每个语言模型返回的(log)概率，并将其分配给返回高分的语言模型。

p* = argmax p_i p_i(sentence)

其中 p_i 是方言 i 的语言模型。

语言模型是单词序列上的概率分布。给定一个句子，比如长度为 m，它会为整个序列分配一个概率 P(w1, ... ,wm)。因此该句子将属于 P_i(w) 较高的方言，其中 P_i 是方言 i 的语言模型。

关于python - 如何训练分类器从语法语言中检测白话？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56129349/