c# - 文字异常

标签 c# algorithm text-processing

让我用一个例子来解释。 我们有以下文本:

“Comme Il Faut 成立于 1927 年。这家烟草公司以为其全局合作伙伴生产定制自有品牌品牌而闻名。”

这是普通文本。但是下面的文字:

“CommeIlFaut 成立于 1927 年。这家烟草公司以为其全局合作伙伴生产定制自有品牌品牌而闻名”

这是文本异常:拼写错误、没有空格的单词,也许是其他原因。

如何搜索此类异常?
这个(统计)有什么算法?

结果最好是百分比:例如,80% 的异常。

谢谢。

最佳答案

构造一个 Trie字典中所有已知单词的树。 获取文本中出现的每个单词并尝试在 Trie 树中找到它。如果找不到,则尝试匹配长度为 k 的前缀。如果找到匹配项,则对其余 k 个字符应用相同的过程。它是递归的,它可以捕获两个以上的连接词

关于c# - 文字异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5673502/

相关文章:

c# - 在多个嵌套列表中提取第一个元素的正确方法

python - 为什么我的埃拉托色尼筛法运行得这么慢?

c++ - 对每个簇大小具有上限要求的聚类算法

python - 操作 txt 搜索三种模式(sed、awk、pcregrep)

pdf - 将文档从 PDF 转换为文本时如何处理 unicode 字符编码问题

c# - 将 IoC 容器作为依赖项注入(inject)有多糟糕?

c# - 在 Windows 窗体中放置一个 wpf 按钮

c# - C# 中 'on error goto [catch-all] label' 的现代方法

algorithm - "Time Limit Exceeded"用于背包的 Haskell 解决方案

perl - 显示多行注释 block 之外的行