azure - 您如何决定 Azure 中最合适的大数据处理技术堆栈？

我正在为我们即将开展的项目寻找有关 Azure 提供的各种“大数据”技术堆栈组件的指导。

简而言之，我们的平台会大量呈现广告链接。我们记录展示次数(链接呈现的次数)，然后记录每次点击发生的更丰富的数据。 (点击事件、时间戳、维度的 url 参数)

我们希望开始捕获更丰富的遥测数据，了解印象以及用户在发生这种情况时如何与 UX 组件交互。 (UX 打开、滚动事件、UX 关闭等...)

我完全理解这里没有一个正确的答案，但我真的很感激一些关于其他人过去在类似情况下所做的事情的指导，以及您在此过程中遇到的任何“陷阱”或“注意事项”，因此我们不会将时间投入到最终证明是死胡同的技术上。

要求 - 需要能够处理大量事件(每天数百万个事件) - 需要能够提取和聚合数据并将其放在可以报告的其他地方。

我们已经对这些技术进行了首次审查。

数据工厂
Azure 数据仓库
数据湖存储和分析(U-SQL)
Azure 数据 block
Azure 分析服务
Azure 存储资源管理器
HDInsight

就我们目前发现的情况而言，DataFactory 看起来显然是处理任何 ETL 的候选者，无论我们转储获取的数据到何处，无论最终数据位于何处。

SQL 数据仓库似乎是报表数据最终栖息地的明显候选者，因为它可以使用标准 SQL/ODBC 连接连接到几乎任何报表解决方案。 (我们内部使用 Tableau，但 PowerBI 可能是一个选择)

除此之外，中间的数据处理/分析/转换似乎可以通过多种方式完成。

最佳答案

既然您已经提到没有一个单一的答案，我会给您一个不完整的答案:-)

这是关于#3，数据湖存储和分析(U-SQL)。我不会押注于分析部分，因为该领域还没有任何进展，而且有传言称它已被悄悄搁置。

关于 #6，Azure 存储资源管理器。这是一个工具，而不是服务。您可能指的是 Azure (Blob) 存储。 Blob 存储是一种廉价且高效的大量数据存储，但对于分析，您最好使用 Azure Data Lake Store 或 Gen 2它是 Data Lake Store 和 Blob Storage 的混合版本。 Azure 数据 block 可以在此处存储其数据。

我认为您对 #1 Azure 数据工厂的观察是正确的。 Azure Data Bricks 也常用于提取和转换，您可以在数据工厂管道中运行 Azure Data Bricks 笔记本。

也许this vid也会帮助您做出决定。

关于azure - 您如何决定 Azure 中最合适的大数据处理技术堆栈？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57371951/

azure - 您如何决定 Azure 中最合适的大数据处理技术堆栈？

上一篇：c# - 有没有办法使用 C# 从我的 Function App 中删除 Azure Function？

下一篇：azure - 如何创建 AADAuthenticationProperties (azure) 的 bean？