regex - 组合词的自然语言处理修复

标签 regex nlp

我有一些由另一个系统生成的文本。它将一些单词组合在一起,我认为是某种自动换行副产品。所以像“狗”这样简单的东西被组合成“狗”。

我检查了 ascii 和 unicode 字符串,看那里没有一些看不见的字符,但没有。一个令人困惑的问题是,这是医学文本,并且没有可供检查的语料库。所以,真实的例子是“......排除SARS与肺炎的测试”最终变成了“......与肺炎”。

任何人都有寻找和分离这些的建议?

最佳答案

您可能对此感兴趣 http://www.perlmonks.org/?node_id=336331

您可能可以通过使用两本词典来充分利用文本的医学性质,其中一本仅包含医学术语,另一本包含通用英语。

如果您可以隔离出医学单词,然后将字符串的其余部分与通用词典进行比较,您应该会得到一些不错的结果。

关于regex - 组合词的自然语言处理修复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5319358/

相关文章:

python - 如何在 Python 中使用 pl196x 从 nltk for Polish 中提取引理?

python - KeyError ("word ' %s' 不在词汇表中"% word)

python - 这个简单的正则表达式有什么问题?

regex - Bash 脚本,用于删除包含多个单词的行,同时保留所有空格(对齐)

javascript - 特定电话号码排列的正则表达式

python - 从 Python 字符串列中删除停用词

python - 如何计算 POS 标注器的标注精度和召回率?

regex - AWK 正则表达式中的行尾符号

html - 从 Perl 中的 HTMl/XML 标签中提取文本

prolog - 寻找一个好的俄语语义解析器