Hadoop Cassandra集成设计

标签 hadoop mapreduce cassandra apache-pig

我有 3 个 Cassandra 节点 让我们说 c1、c2 和 c3。我想将 Hadoop 与 Cassandra 集成，这样我就可以在 Hadoop 上运行我的 pig 脚本来从 Cassandra 读取数据并进行分析。所以我已经像这样设置了 hadoop h1 作为名称节点，h2 作为数据节点，c1 作为数据节点，c3 作为数据节点。这里的 h2 节点是唯一的 hadoop 数据节点，而不是任何 Cassandra 节点。我的问题是在通过 pig/mapredude 读取和处理数据时是否使用 h2 数据节点？

最佳答案

如果我错了请纠正我，但是您不需要在所有 cassandra 节点上安装 hadoop 数据节点吗？我的理解是 map-reduce 在减少数据之前使用 HDFS 数据节点来存储中间结果。所以我觉得用H2是很有可能的。这是我的猜测，我期待更正

关于Hadoop Cassandra集成设计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23429559/

上一篇：hadoop - 确定 Hive 表中的桶数

下一篇：java - Hadoop:如何远程调试单个 oozie java 工作流

hadoop - 具有多个文件的WholeFileInputFormat输入

sql - 使用 PARTITION BY (HIVE) 时如何过滤掉组中的重复元素

hadoop - 外壳图标未显示在色相中

bash - HDFS 上的 Snappy 压缩文件没有扩展名且不可读

cassandra - "create table with option With compact storage"或 "create table with option With clustering order storage"哪个写入效率高？

spring - 如何知道 PagingState 已经到达最后一页？

nodetool修复期间Cassandra副本关闭？

networking - Cloudera 配置 - 多 NIC

hadoop - 用于从 Sftp 服务器读取数据的 CDAP Source 插件