<分区>
信息
我的问题是关于 .NET 中的大数据。 BigData 用于存储和查询大量数据(Facebook、Google、Twitter 等)。大数据的例子有 MapReduce、Hadoop、Dryad 等。
Microsoft 放弃了他们的 Dryad (DryadLinq) 替代方案以支持 Hadoop(Dryad 和 the article),所以我想为它以及与之相关的一切做好准备。
我已经知道的
现在有什么?
Hadoop Connector
SQL Server 2012 RC (don't use in production :))
Microsoft Information on Big Data
关于发布和开发,我应该更多地了解什么?
Register on the TechPreview
问题
问题 1:
关于 .NET 平台所独有的 Hadoop,我应该了解哪些内容? (如何查询、特定模式、体系结构等)并且将很有用(在 .NET 环境中)
问题 2:
关于 .NET 平台中的 Hadoop 的信息是否比我已知的更多?
这是一个模糊的问题,所以这里有一个模糊的答案:)
Hadoop 本身是一个在集群中运行 map-reduce 作业的工具,它针对性能进行了高度优化,并且大部分优化是通过以一种易于使用的方式分布数据来完成的,而不会产生I/O 惩罚。
为此你应该阅读 HDFS以及解释这是如何完成的内部结构,简而言之,发生的事情是输入数据聚集在节点中以在本地运行进程并按顺序读取(这是 HDFS 的属性/限制)。
通过这种方式,您可以输入“大数据”,它会在集群内以最有效的方式进行拆分和处理。
既然 Hadoop 本身就是这样,那么有一些工具可以在它之上工作,允许您对数据执行高级抽象(map-reduce 是最简单的过程之一)。
那些包括:
.Net 的细节
Hadoop on Azure (.Net) msdn here 上有介绍更多info here .与通过其平台构建 Hadoop 应用程序相关。
目前只是 CTP,但当然这会改变。
这是关于 Hadoop and MapReduce 的另一篇精彩博文与 code
另外还有一家公司经常给出Hadoop的资料:Cloudera ,您应该经常查看那里以获取更多信息。
有关更多信息,请查看上面链接的 cloudera 页面,您可以查看有关 Hadoop 的所有概念(虽然它非常高级)
我很确定这不是您想要的,但我不知道您想要什么,所以至少我希望您可以检查一些可能有帮助的新项目。
同时检查 Storm :https://github.com/nathanmarz/storm它与 Hadoop 无关,但适用于 Hadoop 不适合的实时场景。