algorithm - Twitter 的热门话题算法如何决定从推文中提取哪些词?

标签 algorithm twitter nlp ranking

我看到了this question ,重点关注“布兰妮斯 PIL 斯”问题。但我有一个不同的问题。算法如何确定需要对哪些词或短语进行排名?例如,如果我发出一条推文说“Michael Jackson died”,它怎么知道要拉出“Michael Jackson”而不是“died”?

或者假设 Alec Baldwin 和 Steven Baldwin 出现在当天的新闻中,因此在很多推文中都被提及。它怎么知道要区别对待这两个名字而不是仅仅取出“Baldwin”?

我天真地认为这个问题是 NP 完全问题(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。

最佳答案

此问题的一般解决方案是使用 "term frequency, inverse document frequency" (tf-idf) .

这是一种统计方法,可以找到比其他词/术语更相关的词/术语,因为它们不常出现。在这种情况下,与常见的英文单词“died”相比,“Michael Jackson”这个名字的出现频率可能非常低。

至于 Alec Baldwin 与 Steven Baldwin - 这些将在 part-of-speech tagging 期间被识别为独立的- 他们会被标记为单独的专有名词。

关于algorithm - Twitter 的热门话题算法如何决定从推文中提取哪些词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1996008/

相关文章:

twitter - Flutter (Dart 2) 访问 twitter GET api

php - Zend_Service_Twitter - 准备好 API v1.1

javascript - 我想使用 JQuery 创建一个 Twitter 小部件 - 我应该从哪里开始?

algorithm - 有效分担费用后偿还债务: max 1 transaction per person

c - 如何在没有嵌套循环的情况下实现三项式展开。

c - 允许跟踪具有特定模式的单词后两个单词出现的单词的算法

algorithm - 混合两个项目列表,使结果看起来自然而不是人为的

python - 在python中检测文本中的缩写

machine-learning - 最新的句子可读性算法

algorithm - 在大型文本语料库中查找常见单词序列的技术?