我有一个4节点的Cassandra集群,它也是hadoop集群
当我运行Pig脚本来选择和计数Cassandra表的行时,它会使用1个 map task 创建hadoop作业-完成该作业需要很长时间。
为什么hadoop不创建多个 map 作业?
最佳答案
最有可能的事情是,hadoop输入格式生成的拆分足够大,足以覆盖整个 token 范围。尝试缩小输入拆分大小,以便创建更多任务。
关于hadoop - Hadoop Cassandra Pig-行计数查询仅通过1个映射任务运行缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28570215/