让我用一个例子来解释。 我们有以下文本:
“Comme Il Faut 成立于 1927 年。这家烟草公司以为其全局合作伙伴生产定制自有品牌品牌而闻名。”
这是普通文本。但是下面的文字:
“CommeIlFaut 成立于 1927 年。这家烟草公司以为其全局合作伙伴生产定制自有品牌品牌而闻名”
这是文本异常:拼写错误、没有空格的单词,也许是其他原因。
如何搜索此类异常?
这个(统计)有什么算法?
结果最好是百分比:例如,80% 的异常。
谢谢。
最佳答案
构造一个 Trie字典中所有已知单词的树。 获取文本中出现的每个单词并尝试在 Trie 树中找到它。如果找不到,则尝试匹配长度为 k 的前缀。如果找到匹配项,则对其余 k 个字符应用相同的过程。它是递归的,它可以捕获两个以上的连接词
关于c# - 文字异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5673502/