nlp - 将域名拆分为组成词(如果可能)?

标签 nlp algorithm dynamic-programming np-complete

我想将域名分解成组成词和数字,例如

iamadomain11.com = ['i', 'am', 'a', 'domain', '11']

我该怎么做?我知道可能有多个集合,但是,我目前还可以,只是得到一组可能性。

最佳答案

这实际上在 O'Reilly Media 书中得到了解决,Beautiful Data .在第 14 章“自然语言语料库数据”中,他使用一个巨大的免费提供的标记频率数据集创建了一个拆分器,可以完全按照您的意愿在 Python 中执行。

关于nlp - 将域名拆分为组成词(如果可能)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3349759/

相关文章:

python - 如何解释ntlk包中的 "most informative features"

nlp - nlg 造句

c# - Hierarchy List<custom>,返回轨道

algorithm - 跟进: Find the optimal sequence of stops where the number of stops are fixed

python-3.x - Spacy - 标记带引号的字符串

java - 使用 OpenNLP 获取句子的解析树。陷入困境的例子。

java - 对冒泡排序算法进行正确的运行时分析

c# - 基于列比较的排序矩阵

algorithm - 动态规划算法查找可被 3 整除的 n 位数字的数量

java - 数据结构到 "map"集合到动态规划算法中的状态