我正在使用文本分类对阿拉伯方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器能够检测这些方言的正式(标准或语法)语言,即 MSA(现代标准阿拉伯语)。
我应该使用语法分析吗?建立语言模型?或者我像处理方言一样,收集 MSA 推文然后训练它们?
最佳答案
您可以为该语言的每种方言训练语言模型。然后,给定一个句子,找到每个语言模型返回的(log)概率,并将其分配给返回高分的语言模型。
p* = argmax p_i p_i(sentence)
其中 p_i
是方言 i 的语言模型。
语言模型是单词序列上的概率分布。给定一个句子,比如长度为 m,它会为整个序列分配一个概率 P(w1, ... ,wm)。因此该句子将属于 P_i(w)
较高的方言,其中 P_i
是方言 i
的语言模型。
关于python - 如何训练分类器从语法语言中检测白话?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56129349/