因此,我正在开展一个艺术家分类项目,该项目利用来自 Genius.com 的嘻哈歌词。问题是这些歌词是用户生成的,因此同一个单词可以用各种不同的方式拼写,尤其是俚语,这在嘻哈音乐中很常见。
我研究了使用 hunspell/pyhunspell 进行拼写纠正,但问题是它不能修复俚语拼写错误。从技术上讲,我可以制作一本带有一堆拼写错误变体的迷你词典,但这实际上毫无用处,因为在我(不断增长的)6000 首歌曲语料库中,同一个单词可能有十几个变体。
有什么建议吗?
最佳答案
你可以尝试阻止你的话。有关词干提取的更多信息 here 。这将有助于将拼写变化相近的单词分组在一起。
一种流行的词干方案是 Porter Stemmer,它的实现可以在大多数 NLP 包中找到,例如。 NLTK
关于machine-learning - 如何使用歌词来解释 Word Embeddings/Word2Vec 生成的拼写变化(尤其是俚语)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50477844/