hadoop - Hadoop Cassandra Pig-行计数查询仅通过1个映射任务运行缓慢

标签 hadoop cassandra apache-pig

我有一个4节点的Cassandra集群,它也是hadoop集群

当我运行Pig脚本来选择和计数Cassandra表的行时,它会使用1个 map task 创建hadoop作业-完成该作业需要很长时间。

为什么hadoop不创建多个 map 作业?

最佳答案

最有可能的事情是,hadoop输入格式生成的拆分足够大,足以覆盖整个 token 范围。尝试缩小输入拆分大小,以便创建更多任务。

关于hadoop - Hadoop Cassandra Pig-行计数查询仅通过1个映射任务运行缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28570215/

相关文章:

hadoop - pig 中的 "unable to open iterator for an alias"是什么意思?

java - 使用Spark从Hadoop读取JSON文件

java - 为什么我的 Reducer 没有读取文件?

python - 处理 100 万行键的 pycassa multiget 的有效方法是什么

cassandra - 是否可以为 Cassandra 集群中的节点使用不同的端口?

javascript - 更新计数器时 Cassandra Node.js 驱动程序内存泄漏

apache-pig - 将自定义参数传递给 java 中的 pig udf 函数

hadoop - 如何在 pig latin 的日期时间范围内创建丢失的记录

java - 从系统读取文本文件到 Hbase MapReduce

csv - 使用 PigLatin 将 "3"转换为 3