language-agnostic - 有关于常见错误输入键的统计数据吗?

标签 language-agnostic statistics

我需要在我正在处理的项目的键盘上找到一个常见错误键入键的列表。基本上我需要知道用户试图按下什么键以及他们实际按下了什么键,以及这种情况发生频率的比较度量。

通过“比较措施”,我的意思是我想能够说,知道用户输入错误的“c”键,他们更有可能点击“x”键而不是“v”键(基本上是“共性”栏)。

我的理想 list 如下所示,让您了解我在寻找什么。

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

等等...

有没有人遇到过任何有信誉的来源可以提供这些信息?到目前为止我没有运气...

最佳答案

几年前,我实际上不得不研究类似的问题。当我开始这个项目时,我不知道从哪里开始,所以希望我能在同一情况下拯救你和其他任何人,一段时间。

最重要的是,您可以利用在其他领域完成的大量工作。我发现这些字段中最重要的是 域名 登记。

例如,站点 域工具有一个 ' Domain Typo Generator ',它的工作原理是根据您输入的父域名生成错字域名列表。

鉴于专业域名所有者(aks 抢注者)占任何注册商业务的很大一部分,很容易看出该工具的用途(即,抢注者有兴趣获得高流量域名的常见错别字——甚至是高流量域名的 2% 错误率是对错字域名的大量流量。

此外,我会推荐非常全面的 2005 Study微软研究院的这个问题。

最后,计算语言学中有一个源自 Levenshtein 距离的关键概念,称为 Damerau-Levenshtein distance ,它将 Levenshtein 的基本编辑距离基本思想扩展到人类在键盘上打字的特定问题。

他在 1964 年的研究论文中得出的主要结论是,80% 的拼写错误都可以通过四种操作中的一种来描述——插入、删除、替换单个字符或两个字符的换位。

Damerau 不仅区分了这四种编辑操作,而且还表示它们对应了 80% 以上的人类拼写错误。 (我为 D-L 提供的唯一链接是 Wikipedia 文章;我这样做是因为我认为这是一篇出色而简短的介绍,而且它包含 D-L 算法的伪代码,最后这篇文章提供了 D-L 主要在线资源的链接。

关于language-agnostic - 有关于常见错误输入键的统计数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3445623/

相关文章:

language-agnostic - 根据供需调整价格的简单公式

machine-learning - 我应该保留/删除代表不同对象的相同训练示例吗?

python - 如何解释热图(或一般情况)上的负相关性?

arrays - 具有交替递增和递减值的最长子序列

r - 更适合线性模型

python - 如何更好地拟合seaborn fiddle 情节?

python-3.x - 从平均值和标准差计算 Z 分数

language-agnostic - 我在哪里存储哈希表或字典键名

language-agnostic - 有关用于错误查找的静态分析的良好介绍性文本?

language-agnostic - Code Golf : Frobenius Number