我正在开发一个小型图书馆自动化软件,我需要确定English中的单词或Turkish 。示例场景如下:
- 用户输入书名。
- 确定是土耳其语还是英语。
- 将语言组合框设置为相应的语言以帮助用户填写表单。
我的一个 friend 建议我“连接到谷歌翻译并使用它”,这似乎很合理,但不连接外部服务或数据库的算法更适合我。 (我还搜索土耳其语/英语特定字符,如 ç、ş、й/w、x 来决定)因此,我正在搜索一种算法来完成这项工作,可能基于字母频率或类似的东西。有什么文献可以引用吗?提前致谢。 (如果重要的话我会使用php、mysql)
最佳答案
如果您正在测试的样本很小(单个单词或短语),那么像字母频率这样的简单启发法就不会很有用,因为英语短语“Jazz Quizzes”可能适合许多人的个人资料语言比英语更容易。
您也许可以使用双字母和三字母的频率(2 个字母和 3 个字母的组合),因为英语和土耳其语完全不相关,以至于它们的组合仅出现在一个字母中。
然而,更有可能的是,您将不得不使用两种语言中实际单词的数据库。在这种情况下,您可能最好使用第三方 API 或数据库,而不是全力构建自己的语料库、实现统计算法等。
关于php - 如何确定一个单词是英语还是任何其他语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15867808/