hadoop - 如何编写配置单元UDF

标签 hadoop mapreduce hive hiveql hive-udf

我对如何使用UDFS感到困惑,是否可以用UDF取代bash以下脚本功能?

#!/bin/bash

 src_count_q="use db;select count(*) from config_table where table_nm="test_source";"
 src_count=$(hive -e $src_count_q)

 trg_count_q="use db;select count(*) from config_table where table_nm="test_target";"
 trg_count=$(hive -e $trg_count_q)

 if ["$src_count" = "trg_count"];
 then
   $(hive -e "use db;select * from test_target;")
 fi

请帮忙 !!我已经看到了有关如何反转字符串或更改大小写的UDF,但是我无法弄清楚如何针对此类条件情况编写HIVE UDF,因为在这种情况下我们会重用查询结果。

还有其他更好的方法来处理这类查询流吗?

最佳答案

据我说,您可以使用HIVE UDF在 hive 中启用某些sql函数,但是您不能使用它们将PL-SQL放在类似的东西中。
因此,对于您的问题,可以使用Spark-SQL是我使用的更好的方法。

关于hadoop - 如何编写配置单元UDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36523660/

相关文章:

apache - 无法运行导入 org.apache.lucene.analysis.Analyzer 的 Java 程序

python - 在python中使用Hadoop处理大型csv文件

java - Hadoop的默认分组比较器?

hadoop - hadoop-如果一个文件只有一个记录并且文件的大小大于 block 大小,那么输入拆分形式会如何?

hadoop - 如何在Hive表中实现触发器概念

ruby - 在 AWS elastic map/reduce 上运行 MRToolkit hadoop 作业

hadoop - 如何静音 apache zookeeper 调试消息 (AWS EMR)?

hadoop - 通过命令行运行 HQL 查询时出错

sql - 优化 Hive 查询。 java.lang.OutOfMemoryError : Java heap space/GC overhead limit exceeded 错误

hadoop - 启动 Flume 代理时找不到文件异常