data-analysis - 与 azure 中的数据湖存储进行实时数据聚合

目前，我正在存储来自设备的分钟地理位置数据，我想计算每个设备之间的差异并将其存储为分钟距离。之后，每当新数据包含分钟地理位置数据到达我的主 csv 文件时，就会聚合例如小时、3 小时和其他一些聚合。

我目前计划做的是调用特定的间隔时间(例如 2/3 分钟或由事件触发)u-sql 脚本来读取我的主要地理位置数据，计算每个设备的分钟差异并将其聚合按分钟、小时等对特定文件进行排序。

但是，也许有任何有效的方法可以使用 azure 工具完成我真正需要的事情吗？

最佳答案

Azure Data Lake Analytics (ADLA) 和 U-SQL 目前仅支持批处理，即用于处理以分钟和小时而非秒为单位的大容量作业。您可能想查看Stream Analytics这可能更适合您的设计。您可能还希望查看涵盖实时和批处理的 lambda 架构模式，在这种情况下，Azure Data Lake Storage (ADLS) 可能是大数据存储。

关于data-analysis - 与 azure 中的数据湖存储进行实时数据聚合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43027657/

上一篇：angularjs - ui-validate 没有被调用

下一篇：vba - 刷新包含 DLookup 值的表单

相关文章：

r - 获取数据的概率密度

machine-learning - 通过机器学习选择特征

java - 如何压缩Azure数据湖存储上的文件

python - 如何在Databricks中使用os.walk()来计算Azure datalake中的目录大小

c# - 当我从 AWS 迁移到 Azure Data Lake 时，如何避免存储此文件？

statistics - 寻找估计方法(数据分析)

r - 将多项式模型拟合到 R 中的数据

python - 使用python绘制正值的 fiddle 图

python - 直接在 Azure Datalake 中将 Python Dataframe 写入 CSV 文件

azure - 如何识别 Azure Data Lake 中 getBlobList 请求中的目录