我想将域名分解成组成词和数字,例如
iamadomain11.com = ['i', 'am', 'a', 'domain', '11']
我该怎么做?我知道可能有多个集合,但是,我目前还可以,只是得到一组可能性。
最佳答案
这实际上在 O'Reilly Media 书中得到了解决,Beautiful Data .在第 14 章“自然语言语料库数据”中,他使用一个巨大的免费提供的标记频率数据集创建了一个拆分器,可以完全按照您的意愿在 Python 中执行。
关于nlp - 将域名拆分为组成词(如果可能)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3349759/