我看到了this question ,重点关注“布兰妮斯 PIL 斯”问题。但我有一个不同的问题。算法如何确定需要对哪些词或短语进行排名?例如,如果我发出一条推文说“Michael Jackson died”,它怎么知道要拉出“Michael Jackson”而不是“died”?
或者假设 Alec Baldwin 和 Steven Baldwin 出现在当天的新闻中,因此在很多推文中都被提及。它怎么知道要区别对待这两个名字而不是仅仅取出“Baldwin”?
我天真地认为这个问题是 NP 完全问题(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。
最佳答案
此问题的一般解决方案是使用 "term frequency, inverse document frequency" (tf-idf) .
这是一种统计方法,可以找到比其他词/术语更相关的词/术语,因为它们不常出现。在这种情况下,与常见的英文单词“died”相比,“Michael Jackson”这个名字的出现频率可能非常低。
至于 Alec Baldwin 与 Steven Baldwin - 这些将在 part-of-speech tagging 期间被识别为独立的- 他们会被标记为单独的专有名词。
关于algorithm - Twitter 的热门话题算法如何决定从推文中提取哪些词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1996008/