我正在设计和实现(近)实时网络分析引擎。这类似于 Google Analytics和 ChartBeat .预计每天将有近 1.5 亿个请求。我们有 5 到 8 台机器,每台机器配备 2.5GHz(8 核)CPU 和 16 GB RAM。
我正在寻找可水平扩展的解决方案以满足此要求。目前,我正在为此目的分析 mongo-hadoop 组合。据我了解到现在,很难将所有数据保存在一个地方(一台机器)进行分析。因此,Hadoop 作为数据处理器和 MongoDB 作为数据存储对我来说是一个很好的组合。
是否有适用于此类应用程序的标准或(我应该说)经过验证的架构?我应该考虑哪些设计注意事项? mongo-hadoop 组合是否适合某些人?
最佳答案
我想你已经读过这篇文章了吧?
http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start
这里有关于分片配置的更多细节和工作示例 - http://www.slideshare.net/spf13/mongodb-and-hadoop
关于mongodb - 实时或近实时分析应用程序设计注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13439629/