mysql - 如何检查一个字符串是否看起来是随机的,或者是人为生成的和发音的?

标签 mysql algorithm nlp spam phonetics

用于识别 [可能的] 机器人生成的用户名。

假设您有一个像“bilbomoothof”这样的用户名......这可能是胡说八道,但它仍然包含可发音的声音,因此看起来像是人为生成的。

我承认它可能是从音节或单词部分的字典中随机生成的,但我们暂时假设所讨论的机器人有点垃圾。

  1. 假设您有一个用户名,例如 “sdfgbhm342r3f”,对于人类来说,这是 显然是一个随机字符串。但是可以 这会以编程方式识别吗?
  2. 有没有可用的算法 (类似于 Soundex 等),可以 识别其中的可发音的声音 像这样的字符串?

最受赞赏的适用于 PHP/MySQL 的解决方案。

最佳答案

如果你能限制自己发音英语,我想你会想到类似的东西。对我(我是法国人)来说,像 szczepanwawrzyniec 这样的词是不可发音的,而且肯定有一定的随机性。

但他们实际上是Polish first names (意思是 stevenlawrence)...

关于mysql - 如何检查一个字符串是否看起来是随机的,或者是人为生成的和发音的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1164186/

相关文章:

mysql - 如何为 MySQL 5.7 表中的 TIME 列设置默认时间?

mysql - 有没有一种方法可以使用一个选择来计算 MySQL 中的时间差异

python - 无法使用 pyplot、pandas : _tkinter. TclError 绘制图形:无显示名称且无 $DISPLAY 环境变量

python - 使用 NLTK 和 Python 从自由文本中提取关键字/短语进行结构化查询

machine-learning - 评论集中的前 m 个主题

python - 如何正确导航 NLTK 解析树?

mysql - 由于 "duplicate"错误,多重属性唯一约束阻止行插入

algorithm - 与 Haskell 不一致的行为

algorithm - Dijkstra 算法是用于有向图还是无向图?

java - 自定义比较器,用于对州、县和邮政编码列表进行排序