php - 如何确定一个单词是英语还是任何其他语言

标签 php algorithm nlp translation

我正在开发一个小型图书馆自动化软件,我需要确定English中的单词或Turkish 。示例场景如下:

  • 用户输入书名。
  • 确定是土耳其语还是英语。
  • 将语言组合框设置为相应的语言以帮助用户填写表单。

我的一个 friend 建议我“连接到谷歌翻译并使用它”,这似乎很合理,但不连接外部服务或数据库的算法更适合我。 (我还搜索土耳其语/英语特定字符,如 ç、ş、й/w、x 来决定)因此,我正在搜索一种算法来完成这项工作,可能基于字母频率或类似的东西。有什么文献可以引用吗?提前致谢。 (如果重要的话我会使用php、mysql)

最佳答案

如果您正在测试的样本很小(单个单词或短语),那么像字母频率这样的简单启发法就不会很有用,因为英语短语“Jazz Quizzes”可能适合许多人的个人资料语言比英语更容易。

您也许可以使用双字母和三字母的频率(2 个字母和 3 个字母的组合),因为英语和土耳其语完全不相关,以至于它们的组合仅出现在一个字母中。

然而,更有可能的是,您将不得不使用两种语言中实际单词的数据库。在这种情况下,您可能最好使用第三方 API 或数据库,而不是全力构建自己的语料库、实现统计算法等。

关于php - 如何确定一个单词是英语还是任何其他语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15867808/

相关文章:

php - php 获取混合颜色的百分比

php - 使用 PHP 将时间戳转换为小时

algorithm - Dropbox 同步如何工作?

algorithm - 为什么我的红黑树实现基准测试显示线性时间复杂度?

python - NLTK ConllCorpusReader 中的 NE 标签

nlp - 标记文本文档 - 监督机器学习

algorithm - 如何确定上下文相关的同义词?

php - 使用 JOIN 将三个 MySQL 查询合并为一个

php - jQuery AJAX/PHP/MySQL 实时过滤

python : DIY generalize this "all_subsets" function to any size subsets