twitter - 如何处理推文中的俚语和简短形式，如 luv 、 kool 和 brb ？

我正在使用 Python 对推文进行预处理。然而，使用的很多单词都是其他单词的缩写形式，如 luv、kool 等。此外，还有缩写，如 brb 、 ttyl 等。

现在，我只能想到有一个巨大的 HashMap ，其中单词作为键，实际单词或扩展作为值。有没有其他更好的方法使用 NLP 来解决这个问题？

注意:我知道问题似乎太模糊了。但请不要举报。我问这个问题是为了让业余爱好者能够从这些知识中受益

PS:是否有一个格式良好的文本列表可供我下载和使用？放置的链接很好，但是当我复制并粘贴它时 - 它们不是易于解析的格式

最佳答案

破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩写词典。虽然人类可以利用常识知识和已知的缩写来预测含义，但即使他们做得很糟糕，所以目前 NLP 没有希望。

有时也可以在同一文本中找到缩写词的定义，但 twitter 或(不是和)俚语则不然。

所以，是的，您必须存储从首字母缩略词到其扩展名的映射。为了获得它们，请搜索首字母缩略词词典，例如this slang dictionary ，或that ，或that ，或that - seems to be the easiest for parsing .

至于“kool”等其他俚语，您可以尝试拼写纠正算法，参见related question .

关于twitter - 如何处理推文中的俚语和简短形式，如 luv 、 kool 和 brb ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28769577/

相关文章：

jQuery .getJSON() Twitter 搜索，结果未定义。