group-by - 如何使用hbase协处理器实现groupby？

标签 group-by hbase endpoint

最近学习了hbase协处理器，我用endpoint累加了hbase表的一列。比如hbase表名为“pendings”，它的family是“asset”，我累加了“asset:amount”的所有值。该表还有其他列，例如“asset:customer_name”。我要做的第一件事是按“asset:customer_name”累积“asset:amount”组的值。但是我发现groupby没有API，或者我没有找到。你知道如何实现GROUPBY或者如何使用HBASE提供的API吗？

最佳答案

您应该使用端点来完成这项工作。

您在本文中有一个求和示例:https://blogs.apache.org/hbase/entry/coprocessor_introduction .

您基本上需要添加的是附加您的行键和客户名称以形成您的新键“MyKey”。您应该保留最后一次看到的 MyKey 的变量，当当前 MyKey 与前一个不同时，您应该发出前一个 MyKey 及其总和，并将前一个 MyKey 覆盖为当前 MyKey。

您必须确保像 URL 中提供的示例中那样在客户端执行聚合，因为您的客户可能位于两个不同区域的边缘。

关于group-by - 如何使用hbase协处理器实现groupby？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14063658/

上一篇：perl - 将 Moose 与 Test::Class 一起使用 - 构造函数问题

下一篇：haskell - 函数列表中的函数组成!

MySQL 来自多个表的最新相关记录

mysql - 如何使用 "select count(*)"和 "group by"加速 "where"？

sql - SQL Server 2014 中仅分组后的不同值

java - 什么是强拉及其特点？

hadoop - 如何在多个节点上设置Hive？

c# - 为什么 IPEndPoint 是可变的？有不变的版本吗？

sql-server - SQL Server - 选择有条件的最新记录

java - Hbase 中的 addImmutable 和 addColumn 有什么区别？

java - 用于连接到 Heroku WebSocket 端点的 URI