ruby - 用于确定应用程序描述是否用英语编写的算法的错误

标签 ruby nlp language-detection

我们在 Apple App Store 上对应用程序进行索引,但需要过滤掉描述不是用英文编写的应用程序。

不过,我们当前的算法失败了。例如,它在得分 this game 方面失败了。因为它不是用英文写的。

这是我们用来确定某些内容是否被视为英语的 bool 方法和正则表达式:

  NonEnglishRegex = /[^\040-\176\u2000-\u206F\u2100-\u214F\u2E00-\u2E7F\u3000-\u303F\u00AE\u2605\u272b-\u272e\s]/

  def not_english?(text)
     text.gsub(NonEnglishRegex, '').length.to_f / text.length < 0.95
  end

还有更好的办法吗?我们正在使用 Ruby。

最佳答案

查看 WhatLanguage gem 。 Here's a YouTube demo 。例如:

"This is a test".language   # => "English"

关于ruby - 用于确定应用程序描述是否用英语编写的算法的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22123550/

相关文章:

ruby-on-rails - 通过系统调用在 ruby​​ 中嵌套超时的问题

java - 使用 NLP 转换性别

nlp - 使用 NLTK python 的因果句提取

javascript - 如何通过手机、Outlook 电子邮件或城市获取用户的本地时间(时区)?

ruby - 从哈希创建 CSV

使用 langdetect 进行 Java 语言检测 - 如何加载配置文件?

java - 从文本确定人类语言::系统结构

python - Textblob - HTTPError : HTTP Error 429: Too Many Requests

ruby - 在 VSCode (Mac OS X) 中调试 Ruby 代码时出错

python - NLTK Tokenizer 编码问题