.NET 和 Hadoop - 我应该知道/学习什么以及可以使用什么?

标签 .net apache linq hadoop

<分区>

信息

我的问题是关于 .NET 中的大数据。 BigData 用于存储和查询大量数据(Facebook、Google、Twitter 等)。大数据的例子有 MapReduce、Hadoop、Dryad 等。

Microsoft 放弃了他们的 Dryad (DryadLinq) 替代方案以支持 Hadoop(Dryadthe article),所以我想为它以及与之相关的一切做好准备。

我已经知道的

现在有什么?

Hadoop Connector

SQL Server 2012 RC (don't use in production :))

Microsoft Information on Big Data

关于发布和开发,我应该更多地了解什么?

Register on the TechPreview

问题

问题 1: 关于 .NET 平台所独有的 Hadoop,我应该了解哪些内容? (如何查询、特定模式、体系结构等)并且将很有用(在 .NET 环境中)

问题 2: 关于 .NET 平台中的 Hadoop 的信息是否比我已知的更多?

最佳答案

这是一个模糊的问题,所以这里有一个模糊的答案:)

Hadoop 本身是一个在集群中运行 map-reduce 作业的工具,它针对性能进行了高度优化,并且大部分优化是通过以一种易于使用的方式分布数据来完成的,而不会产生I/O 惩罚。

为此你应该阅读 HDFS以及解释这是如何完成的内部结构,简而言之,发生的事情是输入数据聚集在节点中以在本地运行进程并按顺序读取(这是 HDFS 的属性/限制)。

通过这种方式,您可以输入“大数据”,它会在集群内以最有效的方式进行拆分和处理。

既然 Hadoop 本身就是这样,那么有一些工具可以在它之上工作,允许您对数据执行高级抽象(map-reduce 是最简单的过程之一)。

那些包括:

.Net 的细节

Hadoop on Azure (.Net) msdn here 上有介绍更多info here .与通过其平台构建 Hadoop 应用程序相关。 目前只是 CTP,但当然这会改变。

这是关于 Hadoop and MapReduce 的另一篇精彩博文与 code

另外还有一家公司经常给出Hadoop的资料:Cloudera ,您应该经常查看那里以获取更多信息。 有关更多信息,请查看上面链接的 cloudera 页面,您可以查看有关 Hadoop 的所有概念(虽然它非常高级)

我很确定这不是您想要的,但我不知道您想要什么,所以至少我希望您可以检查一些可能有帮助的新项目。

同时检查 Storm :https://github.com/nathanmarz/storm它与 Hadoop 无关,但适用于 Hadoop 不适合的实时场景。

关于.NET 和 Hadoop - 我应该知道/学习什么以及可以使用什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8257324/

相关文章:

django - 使用 mod_wsgi 在 Apache2 上部署 Django - Django 项目的正确位置?

php - 在我的 php 脚本中,我与服务器的连接有效,但我的 sql 查询不起作用

c# - 声明有界类型的泛型字典

c# - 此代码在做什么-拆分字符串并创建GUID

c# - 将 .Net Membership Provider 与 Entity Framework 4.3 迁移结合使用

c# - 在 C# 中创建嵌套字典的优雅方式

c# - 如何获得两个数据表之间的差异

c# - 如何分配可变数量的输入?

php - cURL 7.27.0-1 无法通过 Apache PHP 加载,但在 php 命令行上运行良好

c# - XML 元素属性值是否始终是字符串数据类型?