twitter - 如何处理推文中的俚语和简短形式,如 luv 、 kool 和 brb ?

标签 twitter nlp

我正在使用 Python 对推文进行预处理。然而,使用的很多单词都是其他单词的缩写形式,如 luv、kool 等。此外,还有缩写,如 brb 、 ttyl 等。

现在,我只能想到有一个巨大的 HashMap ,其中单词作为键,实际单词或扩展作为值。有没有其他更好的方法使用 NLP 来解决这个问题?

注意:我知道问题似乎太模糊了。但请不要举报。我问这个问题是为了让业余爱好者能够从这些知识中受益

PS:是否有一个格式良好的文本列表可供我下载和使用?放置的链接很好,但是当我复制并粘贴它时 - 它们不是易于解析的格式

最佳答案

破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩写词典。虽然人类可以利用常识知识和已知的缩写来预测含义,但即使他们做得很糟糕,所以目前 NLP 没有希望。

有时也可以在同一文本中找到缩写词的定义,但 twitter 或(不是和)俚语则不然。

所以,是的,您必须存储从首字母缩略词到其扩展名的映射。为了获得它们,请搜索首字母缩略词词典,例如this slang dictionary ,或that ,或that ,或that - seems to be the easiest for parsing .

至于“kool”等其他俚语,您可以尝试拼写纠正算法,参见related question .

关于twitter - 如何处理推文中的俚语和简短形式,如 luv 、 kool 和 brb ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28769577/

相关文章:

jQuery .getJSON() Twitter 搜索,结果未定义。

推文后的推特绑定(bind)事件( twttr.events.bind )不起作用

html - 如何修改 http ://twitter. com/*/following 的 html/css 以使用 100% 的页面宽度?

python - Tensorflow raw_rnn 从嵌入矩阵中检索形状为 BATCH x DIM 的张量

python - 在 Python 中存储和访问大型(~10 GB)列表的方法?

android - 在 Facebook/Twitter 注册之前检查现有用户解析 Android SDK

java - 使用 twitter4j 使用多线程从 twitter 获取数据

python - Topia 术语摘录 - 意大利语词典

dictionary - 我在哪里可以下载 ispell *.dict 和 *.affix 文件?

python - Word2vec - 获得相似度等级