machine-learning - 如何使用歌词来解释 Word Embeddings/Word2Vec 生成的拼写变化(尤其是俚语)？

因此，我正在开展一个艺术家分类项目，该项目利用来自 Genius.com 的嘻哈歌词。问题是这些歌词是用户生成的，因此同一个单词可以用各种不同的方式拼写，尤其是俚语，这在嘻哈音乐中很常见。

我研究了使用 hunspell/pyhunspell 进行拼写纠正，但问题是它不能修复俚语拼写错误。从技术上讲，我可以制作一本带有一堆拼写错误变体的迷你词典，但这实际上毫无用处，因为在我(不断增长的)6000 首歌曲语料库中，同一个单词可能有十几个变体。

有什么建议吗？

最佳答案

你可以尝试阻止你的话。有关词干提取的更多信息 here 。这将有助于将拼写变化相近的单词分组在一起。

一种流行的词干方案是 Porter Stemmer，它的实现可以在大多数 NLP 包中找到，例如。 NLTK

关于machine-learning - 如何使用歌词来解释 Word Embeddings/Word2Vec 生成的拼写变化(尤其是俚语)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50477844/

相关文章：

python - 我如何在 NLTK 中使用书籍功能(例如协调)？