我是一位经验丰富的LAMP开发人员,并且在php,nginx,haproxy,redis,mongodb和aws服务方面经验丰富。每当需要大数据时,我都会使用AWS Web服务,并且最近开始阅读有关希望自己使用该技术的大数据的信息,而不是将托管服务用于大数据处理,流处理等。
但是,这与学习LAMP并不一样,并且由于用例的性质,很难为新手找到好的资源。特别适合那些还没有使用Java生态系统的人。 (据我了解,Java软件几乎涵盖了流行的大数据堆栈)。下面的软件列表在谈论大数据时几乎无处不在,但是很难理解每种软件的概念,并且每个项目的主页上提供的描述都非常模糊。
例如“Cassandra”,表面上是一个存储时间序列数据的好数据库,但是当阅读更多有关分析的信息时,就会出现其他堆栈,如hadoop,pig,zookeeper等。
简而言之,这些软件有什么作用?在大数据的背景下,其中一些项目具有相同的方面,为什么它们又并存呢?有什么好处?什么时候使用什么?
最佳答案
至于hadoop,您必须了解,取决于上下文,Hadoop可能意味着两件事。如果您熟悉该术语,则有点像“Linux”一词。
Cassandra也可能属于第二类,因为"Hadoop integration was added way back in version 0.6 of Cassandra"。
为了更好地了解整个生态系统,您必须understand how this is all structured:
从下到上:
除了某个地方,我们还有整个生态系统的管理工具。管理服务器,管理任务执行顺序(作业调度)等。这是Kafka和Zookeeper所属的地方。
¹我目前不了解HBase与ORC文件或Parquet之间的关系。
关于java - Apache项目与大数据世界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29679959/