我们在 Apple App Store 上对应用程序进行索引,但需要过滤掉描述不是用英文编写的应用程序。
不过,我们当前的算法失败了。例如,它在得分 this game 方面失败了。因为它不是用英文写的。
这是我们用来确定某些内容是否被视为英语的 bool 方法和正则表达式:
NonEnglishRegex = /[^\040-\176\u2000-\u206F\u2100-\u214F\u2E00-\u2E7F\u3000-\u303F\u00AE\u2605\u272b-\u272e\s]/
def not_english?(text)
text.gsub(NonEnglishRegex, '').length.to_f / text.length < 0.95
end
还有更好的办法吗?我们正在使用 Ruby。
最佳答案
查看 WhatLanguage gem 。 Here's a YouTube demo 。例如:
"This is a test".language # => "English"
关于ruby - 用于确定应用程序描述是否用英语编写的算法的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22123550/