我觉得使用 Pig 加载 HCatalog 很舒服,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 还很陌生……
你能提供任何关于如何开始的 Material 吗?是否有任何 Spark 库可供使用?
有什么例子吗?我在 http://spark.apache.org/ 上做了所有练习但他们专注于 RDD 并且不再进一步..
如有任何帮助,我将不胜感激...
问候
帕维尔
最佳答案
您可以使用 spark SQL 从 Hive 表而不是 HCatalog 中读取数据。
您可以使用 Spark Java/Scala/Python 语言应用与 Pig 相同的转换,例如过滤、连接、分组……
关于hadoop - Spark 和 HCatalog?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25308731/