java - 如何判断纯文本文件是用什么语言编写的?

标签 java nlp

假设我们有一个包含以下内容的文本文件: “Je suis un beau homme ...”

另一个: “我是个勇敢的人”

第三个带有德语文本: “Guten morgen. Wie geht 的?”

我们如何编写一个函数来告诉我们:以这样的概率,第一个文本 文件是英文的,第二个我们有法语等?

欢迎提供指向书籍/开箱即用解决方案的链接。我用 Java 编写,但如果需要,我可以学习 Python。

我的评论

  1. 我需要添加一条小评论。文本可能包含不同语言的短语,作为整体的一部分或作为错误的结果。在经典文学中我们有很多例子,因为贵族成员会说多种语言。因此概率更好地描述了这种情况,因为文本的大部分内容是用一种语言编写的,而其他部分可能是用另一种语言编写的。
  2. Google API - 互联网连接。我不想使用远程功能/服务,因为我需要自己做或使用可下载的库。我想对该主题进行研究。

最佳答案

有一个包叫 JLangDetect这似乎正是你想要的:

langof("un texte en français") = fr : OK
langof("a text in english") = en : OK
langof("un texto en español") = es : OK
langof("un texte un peu plus long en français") = fr : OK
langof("a text a little longer in english") = en : OK
langof("a little longer text in english") = en : OK
langof("un texto un poco mas largo en español") = es : OK
langof("J'aime les bisounours !") = fr : OK
langof("Bienvenue à Montmartre !") = fr : OK
langof("Welcome to London !") = en : OK
// ...

编辑:正如 Kevin 指出的,Nutch project 中有类似的功能。包提供org.apache.nutch.analysis.lang .

关于java - 如何判断纯文本文件是用什么语言编写的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2326063/

相关文章:

java - xml布局的问题

java - Android 游戏循环中的高级并发

java - SSLSocket 通过另一个 SSLSocket

nlp - 改进现有的基本手套模型

python - Spacy is_stop 无法识别停用词?

python - 如何向量化Python单词列表?

java - 默认情况下,Groovy 是否自动将 boolean 值装箱为对象?

java - 如何在 JasperReports 中使用 List<List<String>> 打印表格?

algorithm - 单词着色和语法分析

nlp - 句子的 RDF 表示