我刚刚设置了我的前 4 个节点、HadoopDataPlatform 2.0 堆栈、集群。
有没有好的“Hello World”入门程序
- 数据库?
- pig ?
- hive ?
我最终将解决的实际生产问题太复杂了,甚至无法部分重现。 我希望找到一些比 'http://hbase.apache.org/book/quickstart.html 稍深的入门文档。 '
我认为 Hive 和 Pig 在食物链中是竞争对手,但我们必须针对我们的特定用例对两者进行评估,直到确定一个。
最佳答案
(如果您分享到目前为止所看到的内容,您可能会得到更好的回应)
Pig、Hive、Hbase的一些入门教程: http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#pig http://pig.apache.org/docs/r0.8.1/tutorial.html https://cwiki.apache.org/confluence/display/Hive/Tutorial http://gethue.tumblr.com/post/58181985680/hadoop-tutorial-how-to-create-example-tables-in-hbase
有很多好书,如 Alan Gates 的 Programming Pig、Programming Hive 等,如果您想深入了解,也可以阅读。
关于 Pig 和 Hive 在食物链中是竞争对手的说法并不正确。 您可以很好地结合使用它们 - Pig 用于处理非结构化数据、分组和数据转换为结构化输出。 Hive QL(类似于 SQL)可用于对 Pig 输出的结构化数据运行即席查询。
此外,除了 Pig(它有一个名为 Pig Latin 的自定义 DSL)之外,还有其他几个可用的 map 缩减抽象,例如 Scala 的 Scalding/Scoobi,或 Java 的 Cascading、Crunch。能够使用一种具有良好抽象级别的语言进行编程是您从中获得的好处。
关于hadoop - "Hello World !"用于 hadoop/hbase?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20026894/