mongodb - 实时或近实时分析应用程序设计注意事项

标签 mongodb hadoop analytics near-real-time bigdata

我正在设计和实现(近)实时网络分析引擎。这类似于 Google AnalyticsChartBeat .预计每天将有近 1.5 亿个请求。我们有 5 到 8 台机器,每台机器配备 2.5GHz(8 核)CPU 和 16 GB RAM。

我正在寻找可水平扩展的解决方案以满足此要求。目前,我正在为此目的分析 mongo-hadoop 组合。据我了解到现在,很难将所有数据保存在一个地方(一台机器)进行分析。因此,Hadoop 作为数据处理器和 MongoDB 作为数据存储对我来说是一个很好的组合。

是否有适用于此类应用程序的标准或(我应该说)经过验证的架构?我应该考虑哪些设计注意事项? mongo-hadoop 组合是否适合某些人?

最佳答案

我想你已经读过这篇文章了吧?

http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start

这里有关于分片配置的更多细节和工作示例 - http://www.slideshare.net/spf13/mongodb-and-hadoop

关于mongodb - 实时或近实时分析应用程序设计注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13439629/

相关文章:

statistics - 为什么 Google Analytics(分析)显示的访问次数少于 One&One 统计数据?

javascript - 如何保持方法直到数组在mongodb中有2个元素

node.js - 将 Node 应用程序连接到 Mlab 时遇到问题(错误 : URL malformed, 无法解析)

javascript - Meteor 访问 MongoDB 很慢

java - 单元测试自定义输入输出格式

尽管设置了 mapred.job.tracker 值,Hadoop 1.2.1 仍以本地模式运行

python - Databricks上的PySpark在绝对URI中获取相对路径:当尝试使用DateStamps读取Json文件时

google-analytics - 我们如何在没有身份验证系统的网站中跟踪用户流量?

node.js - Mongoose 将产品表中的 id 推送到用户表中

windows-phone - Flurry 不再允许为 Windows Phone 应用程序创建和使用分析?