azure - 您如何决定 Azure 中最合适的大数据处理技术堆栈?

标签 azure bigdata

我正在为我们即将开展的项目寻找有关 Azure 提供的各种“大数据”技术堆栈组件的指导。

简而言之,我们的平台会大量呈现广告链接。我们记录展示次数(链接呈现的次数),然后记录每次点击发生的更丰富的数据。 (点击事件、时间戳、维度的 url 参数)

我们希望开始捕获更丰富的遥测数据,了解印象以及用户在发生这种情况时如何与 UX 组件交互。 (UX 打开、滚动事件、UX 关闭等...)

我完全理解这里没有一个正确的答案,但我真的很感激一些关于其他人过去在类似情况下所做的事情的指导,以及您在此过程中遇到的任何“陷阱”或“注意事项”,因此我们不会将时间投入到最终证明是死胡同的技术上。

要求 - 需要能够处理大量事件(每天数百万个事件) - 需要能够提取和聚合数据并将其放在可以报告的其他地方。

我们已经对这些技术进行了首次审查。

  1. 数据工厂
  2. Azure 数据仓库
  3. 数据湖存储和分析(U-SQL)
  4. Azure 数据 block
  5. Azure 分析服务
  6. Azure 存储资源管理器
  7. HDInsight

就我们目前发现的情况而言,DataFactory 看起来显然是处理任何 ETL 的候选者,无论我们转储获取的数据到何处,无论最终数据位于何处。

SQL 数据仓库似乎是报表数据最终栖息地的明显候选者,因为它可以使用标准 SQL/ODBC 连接连接到几乎任何报表解决方案。 (我们内部使用 Tableau,但 PowerBI 可能是一个选择)

除此之外,中间的数据处理/分析/转换似乎可以通过多种方式完成。

最佳答案

既然您已经提到没有一个单一的答案,我会给您一个不完整的答案:-)

这是关于#3,数据湖存储和分析(U-SQL)。我不会押注于分析部分,因为该领域还没有任何进展,而且有传言称它已被悄悄搁置。

关于 #6,Azure 存储资源管理器。这是一个工具,而不是服务。您可能指的是 Azure (Blob) 存储。 Blob 存储是一种廉价且高效的大量数据存储,但对于分析,您最好使用 Azure Data Lake Store 或 Gen 2它是 Data Lake Store 和 Blob Storage 的混合版本。 Azure 数据 block 可以在此处存储其数据。

我认为您对 #1 Azure 数据工厂的观察是正确的。 Azure Data Bricks 也常用于提取和转换,您可以在数据工厂管道中运行 Azure Data Bricks 笔记本。

也许this vid也会帮助您做出决定。

关于azure - 您如何决定 Azure 中最合适的大数据处理技术堆栈?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57371951/

相关文章:

azure - 通过 Azure Key Vault 中的轮换策略轮换 key 时,未设置激活日期

c# - Azure 函数代理响应正文不能包含大括号内的值

c# - 由于错误,可以从 VS Code 构建和部署 azure 函数

hadoop - 如何在hadoop中按值对字数进行排序?

python - 操作 JSON 类型文件的有效方法

machine-learning - 重复项在数据集中有用吗?

r - 在 R 中计算 big.matrix 的对角线

python - 使用 Azure Python SDK 对用户进行身份验证的首选方式是什么?

python - 类型错误 : Object of type WorkItem is not JSON serializable

hadoop - Gemfire XD 中的默认复制因子是多少?