Hadoop Cassandra集成设计

标签 hadoop mapreduce cassandra apache-pig

我有 3 个 Cassandra 节点 让我们说 c1、c2 和 c3。我想将 Hadoop 与 Cassandra 集成,这样我就可以在 Hadoop 上运行我的 pig 脚本来从 Cassandra 读取数据并进行分析。所以我已经像这样设置了 hadoop h1 作为名称节点,h2 作为数据节点,c1 作为数据节点,c3 作为数据节点。这里的 h2 节点是唯一的 hadoop 数据节点,而不是任何 Cassandra 节点。我的问题是在通过 pig/mapredude 读取和处理数据时是否使用 h2 数据节点?

最佳答案

如果我错了请纠正我,但是您不需要在所有 cassandra 节点上安装 hadoop 数据节点吗? 我的理解是 map-reduce 在减少数据之前使用 HDFS 数据节点来存储中间结果。所以我觉得用H2是很有可能的。这是我的猜测,我期待更正

关于Hadoop Cassandra集成设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23429559/

相关文章:

java - Gradle 传递依赖项排除未按预期工作。 (如何摆脱 com.google.guava :guava-jdk5:13. 0 ?)

hadoop - 具有多个文件的WholeFileInputFormat输入

sql - 使用 PARTITION BY (HIVE) 时如何过滤掉组中的重复元素

hadoop - 外壳图标未显示在色相中

bash - HDFS 上的 Snappy 压缩文件没有扩展名且不可读

cassandra - "create table with option With compact storage"或 "create table with option With clustering order storage"哪个写入效率高?

spring - 如何知道 PagingState 已经到达最后一页?

nodetool修复期间Cassandra副本关闭?

networking - Cloudera 配置 - 多 NIC

hadoop - 用于从 Sftp 服务器读取数据的 CDAP Source 插件