我有许多字符串(字符集合)代表不同语言的句子,比如说:
Hello, my name is George.
Das brot ist gut.
... etc.
我想为它们中的每一个分配分数(从 0 .. 1),表明它们是英语句子的可能性。是否有公认的算法(或 Python 库)可以从中执行此操作?
注意:我不关心英文句子的语法是否完美。
最佳答案
A bayesian classifier将是此任务的不错选择:
>>> from reverend.thomas import Bayes
>>> g = Bayes() # guesser
>>> g.train('french','La souris est rentrée dans son trou.')
>>> g.train('english','my tailor is rich.')
>>> g.train('french','Je ne sais pas si je viendrai demain.')
>>> g.train('english','I do not plan to update my website soon.')
>>> print g.guess('Jumping out of cliffs it not a good idea.')
[('english', 0.99990000000000001), ('french', 9.9999999999988987e-005)]
>>> print g.guess('Demain il fera très probablement chaud.')
[('french', 0.99990000000000001), ('english', 9.9999999999988987e-005)]
关于python - 判断一个句子是英文概率的比较简单的方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14765632/