我们有一个网站,该网站生成需要挖掘的MB / TB数据。我们应该使用什么技术来实时处理terra字节数据? Hadoop和Cassandra非常适合批处理;但不是实时的。
即时的;意味着对正在发生的数据进行处理并显示报告。
有什么想法或建议吗?
最佳答案
您调查过the Storm project吗?它由Twitter使用。就像实时Hadoop。
我们将其用于我们的流处理项目之一。这很棒。文档,开发,部署,可伸缩性都很棒。我们最近运行了20K消息/秒的处理(在Cassandra中存储,修改和广播,计算均值),它运行可靠,就像魔术一样。绝对值得一试。邮件列表非常友好,我很少用它来提问。
关于java - 我们应该使用什么技术来实时处理terra字节数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11880758/