algorithm - 准备与大数据相关的设计和架构问题的最佳方法

标签 algorithm data-structures bigdata

<分区>

最近,我参加了一家公司的现场面试,被问及与大数据相关的设计问题,例如:获取在时间 t1 和 t2 之间访问网站(比如 google)的用户列表。使用什么数据结构,如何处理并发,陈旧数据,需要多少台服务器来存储数据,每台服务器的要求(软件,硬件)等......

请给我一些书籍/网络引用,以增加我在这个新领域的知识。同时让我了解如何回答此类设计问题

最佳答案

this book (free download) (亚马逊:mining of massive datasets)刚刚发布到HN (该线程也有一些有用的评论) - 从第一次浏览它看起来真的很好。你可以读到。

关于algorithm - 准备与大数据相关的设计和架构问题的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11916824/

相关文章:

algorithm - 数独框索引开始位置

algorithm - 从间隔列表中有效地找到重叠间隔

java - 返回数组与填充数组

python - 看来我已经用完了 32 位地址空间。我有哪些选择?

c++ - 埃拉托斯特尼筛法,数组太大导致内存越界

c - 欧拉计划第14题(Collat​​z问题)

algorithm - 在特殊条件下获取集合中的最大数量

algorithm - 数据结构预处理给定的 N 点集并给定查询并行带输出所有点都位于带内

hadoop - 无法使用 Pig FOREACH 显示数据

performance - ElasticSearch 检索文档速度缓慢