language-agnostic - 我如何从十亿条推文中找到前 10 个主题标签

这是一个有人问我的面试问题，我真的没有很好的答案。我想知道是否有人可以帮助我理解这个问题的解决方案:

“你收到了 10 亿条推文。你将如何找出前 10 个主题标签？”

谢谢

最佳答案

创建一个 map ，以标签为键，以计数器为值。

增加您收到的每条推文中每个标签的计数器。

检查计数器的值以找到前 10 个。

您对问题的措辞不包括任何会禁止这种直接解决方案的限制。在面试的情况下，我会提出澄清问题来引出这些限制。

在诸如“它必须以线性时间运行”和“它必须使用恒定数量的内存”等约束条件下，出现了更有趣的答案。

我不确定所提出的问题是否有固定的内存解决方案，但我知道一个相关(通常更有用)的问题:识别构成给定结果部分的元素。我给了 as an answer to a similar question.

(我说“更有用”，因为如果给定项目的总分数低于阈值，则它比真正的“前 10” Material 更有可能是噪音。)

关于language-agnostic - 我如何从十亿条推文中找到前 10 个主题标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11350612/

上一篇：ruby-on-rails - rails Controller 中的自定义 Action 与 Restful Action ？

下一篇：eclipse - 动态 Web 应用程序、Eclipse、JSF 中的异常 java.lang.NoClassDefFoundError

相关文章：

sql - 代表 NCAA 篮球赛的最佳模式

language-agnostic - “Stop words”列出英语吗？

algorithm - 找到最接近某个位置的非碰撞矩形的有效方法是什么

c# - 在运行时计算百分比

ios - 如何在 Twitter API 中隐藏来自 TimeLine 的推文

r - R中的twitteR身份验证OAuth错误

algorithm - 有哪些用于生成有趣的时间序列数据的紧凑算法？

IOS Twitter 使用 PFLogInViewController 解析登录

python 模拟第三方模块

java - 无法获取请求 token 方法 POST 必须具有请求正文