hadoop - Spark 和 HCatalog？

标签 hadoop apache-pig apache-spark hcatalog

我觉得使用 Pig 加载 HCatalog 很舒服，并且想知道是否可以使用 Spark 代替 Pig。不幸的是，我对 Spark 还很陌生……
你能提供任何关于如何开始的 Material 吗？是否有任何 Spark 库可供使用？有什么例子吗？我在 http://spark.apache.org/ 上做了所有练习但他们专注于 RDD 并且不再进一步..

如有任何帮助，我将不胜感激...
问候
帕维尔

最佳答案

您可以使用 spark SQL 从 Hive 表而不是 HCatalog 中读取数据。

https://spark.apache.org/sql/

您可以使用 Spark Java/Scala/Python 语言应用与 Pig 相同的转换，例如过滤、连接、分组……

关于hadoop - Spark 和 HCatalog？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25308731/