我在 BigQuery 中存储了超过 5 亿行,这些行基本上代表了设备在特定时间(不规则)的准确位置。
我正在尝试找到一种快速有效的方法来确定设备的第一个和最后一个看到的位置。
到目前为止,我已经将其与连接一起使用,但需要 10 多分钟才能完成(除非我只是查询中的限制)。我还尝试了密集排名查询,但无法对计数进行排序(而且我也没有完全理解它)。
我有一个 client_id、device_id(它是固定的,代表建筑物内的位置)和一个时间戳。
首先,我按 client_id 和 device_id 进行了分组,以验证我应该期望的内容。然后我尝试使用最小和最大时间戳加入表:
SELECT count(FirstSet.device_id), FirstSet.device_id
FROM
(
SELECT client_id, device_id, created_at
FROM [mytable.visitsv3]
WHERE secret = 'xxx'
GROUP each BY client_id, device_id, created_at
ORDER BY client_id, created_at asc
LIMIT 1000
) as FirstSet
inner join
(
SELECT client_id, device_id, min(created_at)
FROM [mytable.visitsv3]
WHERE secret = 'xxx'
GROUP each BY client_id, device_id, created_at
LIMIT 1000
) SecondSet
on FirstSet.device_id = SecondSet.device_id
GROUP BY FirstSet.device_id
ORDER BY 1 DESC
limit 25
我是这个世界的新手,所以希望得到一些建议。正如我所说,更多的是关于性能,因为我们需要实时运行查询。
有很多关于同一概念的教程 - 我只是希望有人可以帮助优化事情。
--- 编辑 ---
输出格式应如下所示:
|count|device_id|
-----------------
|10000| 123|
| 9000| 345|
| 800| 234|
--- 在上下文中 ---
我们正在尝试使用我们的数据集实现许多目标(当然不是在单个查询中)。包括:
- 创建最受欢迎的进入点和退出点的热图。
最初,这只是一个总数,但从长远来看,我们必须了解哪些入口/导出点在一天中的某些时间繁忙。然后利用相关函数进行一些预测分析。
- 创建客户穿过建筑物时的路径。
一旦我们有了入口点,我们就需要映射客户端所采用的路径。同样,我们需要预测每天/每小时等的行为。
最初,我们只需要最受欢迎的进入/退出点。因此,我们将客户分组在一起,并对他们出现的设备进行了计数。
数据如下所示:
client_id,device_id,created_at,start,end,duration,lat,lng
F047CA72E,0013BA30,2015-06-22 10:00:32 UTC,2015-06-22 09:30:31 UTC,2015-06-22 09:30:32 UTC,1,XX,YY
F40D8632F,00A30E00,2015-06-22 10:00:29 UTC,2015-06-22 09:30:26 UTC,2015-06-22 09:30:26 UTC,0,XX,YY
B808AA3E0,00138B20,2015-06-22 10:00:27 UTC,2015-06-22 09:30:25 UTC,2015-06-22 09:30:25 UTC,0,XX,YY
A0E532E96,00A33600,2015-06-22 10:00:34 UTC,2015-06-22 09:30:24 UTC,2015-06-22 09:30:25 UTC,1,XX,YY
D4F6F8D50,00149150,2015-06-22 10:00:34 UTC,2015-06-22 09:30:22 UTC,2015-06-22 09:30:22 UTC,0,XX,YY
70124EB7E,00A350A0,2015-06-22 10:00:33 UTC,2015-06-22 09:30:14 UTC,2015-06-22 09:30:14 UTC,0,XX,YY
200AF2A9E,00149090,2015-06-22 10:00:33 UTC,2015-06-22 09:30:13 UTC,2015-06-22 09:30:12 UTC,0,XX,YY
20AE4884A,0013EFC0,2015-06-22 10:00:30 UTC,2015-06-22 09:30:13 UTC,2015-06-22 09:30:13 UTC,0,XX,YY
CCD9BB01C,0013EFC0,2015-06-22 10:00:30 UTC,2015-06-22 09:30:12 UTC,2015-06-22 09:30:06 UTC,0,XX,YY
8CCE1F24E,0004165E,2015-06-22 10:00:12 UTC,2015-06-22 09:30:12 UTC,2015-06-22 09:30:12 UTC,0,XX,YY
每台设备的客户端数量在某种程度上是无关紧要的,因为无论如何它都会针对热图进行标准化。我们只需要对它们进行排名,以便我们可以看到最受欢迎和最不受欢迎的内容。
最佳答案
让我重新表述一下我对设置的理解: - 设备安装在整个建筑物的固定位置 - 客户(人)穿过建筑物时经过设备附近时,会记录此事件 - 具有client_id的客户端通过具有device_id的设备的时间记录在时间戳created_at
因此,给定客户端的第一个created_at时间戳是她进入建筑物的时间,相应的device_id将是一个入口点。为了找到它,我们可以使用
select
client_id,
first_value(device_id)
over(partition by client_id order by created_at asc)
as entry_device_id
为了找到 10 个最受欢迎的条目,我们可以将 TOP 与 COUNT(*) 结合使用,即
select top(entry_device_id, 10), count(*)
把它们放在一起:
select top(entry_device_id, 10), count(*) from (
select
client_id,
first_value(device_id)
over(partition by client_id order by created_at asc)
as entry_device_id
from [mytable.visitsv3]
)
与退出点相同,但这次我们将使用last_value窗口函数:
select top(exit_device_id, 10), count(*) from (
select
client_id,
last_value(device_id)
over(partition by client_id order by created_at asc)
as exit_device_id
from [mytable.visitsv3]
)
关于sql - 使用 Big Query 从每个组中选择第一行并按计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30944968/