hadoop - Spark 和 HCatalog?

标签 hadoop apache-pig apache-spark hcatalog

我觉得使用 Pig 加载 HCatalog 很舒服,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 还很陌生……
你能提供任何关于如何开始的 Material 吗?是否有任何 Spark 库可供使用? 有什么例子吗?我在 http://spark.apache.org/ 上做了所有练习但他们专注于 RDD 并且不再进一步..

如有任何帮助,我将不胜感激...
问候
帕维尔

最佳答案

您可以使用 spark SQL 从 Hive 表而不是 HCatalog 中读取数据。

https://spark.apache.org/sql/

您可以使用 Spark Java/Scala/Python 语言应用与 Pig 相同的转换,例如过滤、连接、分组……

关于hadoop - Spark 和 HCatalog?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25308731/

相关文章:

hadoop - 使用 PIG 脚本获取 friend ID - 需要文本操作

python - 如何通过 bool 列过滤 Spark 数据帧?

python - 使用 Pyspark 从关系数据集构建层次结构

hadoop - 无法通过 Web 界面删除 HDFS 目录,因为我是神秘博士

hadoop - yarn Hadoop运行缓慢

java - 一个行键可以存在于多个hbase区域中吗?

java - 未处理的内部错误。在 pig 中使用 EXPLAIN 时的 Java 堆空间

hadoop - 如何从以分号为分隔符的文件中将数据加载到PIG中

apache-spark - 没有 Databricks 运行时的 Delta Lake

apache-spark - 使用 Kerberized Dataproc 集群时,8088 上的资源管理器 UI 无法正常工作