python - 判断一个句子是英文概率的比较简单的方法是什么?

标签 python string nlp bayesian

我有许多字符串(字符集合)代表不同语言的句子,比如说:

Hello, my name is George.

Das brot ist gut.

... etc.

我想为它们中的每一个分配分数(从 0 .. 1),表明它们是英语句子的可能性。是否有公认的算法(或 Python 库)可以从中执行此操作?

注意:我不关心英文句子的语法是否完美。

最佳答案

A bayesian classifier将是此任务的不错选择:

>>> from reverend.thomas import Bayes
>>> g = Bayes()    # guesser
>>> g.train('french','La souris est rentrée dans son trou.')
>>> g.train('english','my tailor is rich.')
>>> g.train('french','Je ne sais pas si je viendrai demain.')
>>> g.train('english','I do not plan to update my website soon.')

>>> print g.guess('Jumping out of cliffs it not a good idea.')
[('english', 0.99990000000000001), ('french', 9.9999999999988987e-005)]

>>> print g.guess('Demain il fera très probablement chaud.')
[('french', 0.99990000000000001), ('english', 9.9999999999988987e-005)]

关于python - 判断一个句子是英文概率的比较简单的方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14765632/

相关文章:

python - 在 MicroPython 中如何从字符串加载模块

C# 字典找不到字符串键

c++ - 从字符串 C++ 中读取单词,同时忽略空格、数字和符号。

java - 将 OpenIE 三元组转换为 N-三元组 (NT)

nlp - 西类牙语单词网

python - 如何使用DistilBERT Huggingface NLP模型对新数据进行情感分析?

python - 如何让子类使用父类的默认值?

python - 对象的 __init__() 方法在 python 中做了什么?

python - Twitter API 版本 2 不适用于 OAuth 1

javascript - 将字符串Javascript中的某些字符索引大写