regex - 组合词的自然语言处理修复

标签 regex nlp

我有一些由另一个系统生成的文本。它将一些单词组合在一起，我认为是某种自动换行副产品。所以像“狗”这样简单的东西被组合成“狗”。

我检查了 ascii 和 unicode 字符串，看那里没有一些看不见的字符，但没有。一个令人困惑的问题是，这是医学文本，并且没有可供检查的语料库。所以，真实的例子是“......排除SARS与肺炎的测试”最终变成了“......与肺炎”。

任何人都有寻找和分离这些的建议？

最佳答案

您可能对此感兴趣 http://www.perlmonks.org/?node_id=336331

您可能可以通过使用两本词典来充分利用文本的医学性质，其中一本仅包含医学术语，另一本包含通用英语。

如果您可以隔离出医学单词，然后将字符串的其余部分与通用词典进行比较，您应该会得到一些不错的结果。

关于regex - 组合词的自然语言处理修复，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5319358/

上一篇：asp.net - IIS7 HttpModule 和 ISAPI Filter 执行顺序

下一篇：grails - 在 grails 中保存具有多对多关系的对象

python - KeyError ("word ' %s' 不在词汇表中"% word)

python - 这个简单的正则表达式有什么问题？

regex - Bash 脚本，用于删除包含多个单词的行，同时保留所有空格(对齐)

javascript - 特定电话号码排列的正则表达式

python - 从 Python 字符串列中删除停用词

python - 如何计算 POS 标注器的标注精度和召回率？

regex - AWK 正则表达式中的行尾符号

html - 从 Perl 中的 HTMl/XML 标签中提取文本

prolog - 寻找一个好的俄语语义解析器