machine-learning - 如何使用歌词来解释 Word Embeddings/Word2Vec 生成的拼写变化(尤其是俚语)?

标签 machine-learning nlp word2vec text-classification spelling

因此,我正在开展一个艺术家分类项目,该项目利用来自 Genius.com 的嘻哈歌词。问题是这些歌词是用户生成的,因此同一个单词可以用各种不同的方式拼写,尤其是俚语,这在嘻哈音乐中很常见。

我研究了使用 hunspell/pyhunspell 进行拼写纠正,但问题是它不能修复俚语拼写错误。从技术上讲,我可以制作一本带有一堆拼写错误变体的迷你词典,但这实际上毫无用处,因为在我(不断增长的)6000 首歌曲语料库中,同一个单词可能有十几个变体。

有什么建议吗?

最佳答案

你可以尝试阻止你的话。有关词干提取的更多信息 here 。这将有助于将拼写变化相近的单词分组在一起。

一种流行的词干方案是 Porter Stemmer,它的实现可以在大多数 NLP 包中找到,例如。 NLTK

关于machine-learning - 如何使用歌词来解释 Word Embeddings/Word2Vec 生成的拼写变化(尤其是俚语)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50477844/

相关文章:

python - 我如何在 NLTK 中使用书籍功能(例如协调)?

python - scikit-learn,向矢量化文档集添加功能

python - Gensim:如何使用以前的 word2vec 模型重新训练 doc2vec 模型

python - gensim 是如何快速找到最相似的单词的?

machine-learning - tensorflow 形状不正确

language-agnostic - 条件随机场——它们是如何工作的?

machine-learning - 训练步骤中的 Yolo v1 边界框

statistics - 数据挖掘中的重要变量(数字):从哪里开始?

java - 在Android中部署SimpleNLG,NoClassDefFoundError

nlp - 如何在 gensim 中使用 build_vocab?