data-analysis - 与 azure 中的数据湖存储进行实时数据聚合

标签 data-analysis azure-data-lake

目前,我正在存储来自设备的分钟地理位置数据,我想计算每个设备之间的差异并将其存储为分钟距离。之后,每当新数据包含分钟地理位置数据到达我的主 csv 文件时,就会聚合例如小时、3 小时和其他一些聚合。

我目前计划做的是调用特定的间隔时间(例如 2/3 分钟或由事件触发)u-sql 脚本来读取我的主要地理位置数据,计算每个设备的分钟差异并将其聚合按分钟、小时等对特定文件进行排序。

但是,也许有任何有效的方法可以使用 azure 工具完成我真正需要的事情吗?

最佳答案

Azure Data Lake Analytics (ADLA) 和 U-SQL 目前仅支持批处理,即用于处理以分钟和小时而非秒为单位的大容量作业。您可能想查看Stream Analytics这可能更适合您的设计。您可能还希望查看涵盖实时和批处理的 lambda 架构模式,在这种情况下,Azure Data Lake Storage (ADLS) 可能是大数据存储。

关于data-analysis - 与 azure 中的数据湖存储进行实时数据聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43027657/

相关文章:

r - 获取数据的概率密度

machine-learning - 通过机器学习选择特征

java - 如何压缩Azure数据湖存储上的文件

python - 如何在Databricks中使用os.walk()来计算Azure datalake中的目录大小

c# - 当我从 AWS 迁移到 Azure Data Lake 时,如何避免存储此文件?

statistics - 寻找估计方法(数据分析)

r - 将多项式模型拟合到 R 中的数据

python - 使用python绘制正值的 fiddle 图

python - 直接在 Azure Datalake 中将 Python Dataframe 写入 CSV 文件

azure - 如何识别 Azure Data Lake 中 getBlobList 请求中的目录