hadoop - 跨通用 UDF Hive 保存状态

标签 hadoop hive user-defined-functions

我有一个场景,我将逐行传递给 Hive UDF,并且需要对每一行执行一些验证。

这些验证是使用一些预先定义的元数据执行的,我需要从外部资源加载这些元数据。

我的问题是,我能否将此元数据仅在 init 中加载一次并将其应用于所有行。作为加载,每行的每次元数据都会大大降低性能。

最佳答案

除非此元数据发生很大变化,否则我认为最好的办法是将该元数据保存在 HDFS 中。在构造函数中读取它,然后除非映射器启动,否则您不必读取它。

关于hadoop - 跨通用 UDF Hive 保存状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26241670/

相关文章:

r - 创建一个循环以在 ggplot 中写入注释

Hadoop block 校验和 : stored in namenode too?

java - 为什么hadoop没有将数据放在hdfs-site.xml指定的目录中

django - 在色相上设置默认页面

hadoop - Hive 查询太慢而失败

sql - TSQL - 计算多语句表 UDF 中的特定值并将它们传递给附加列

hadoop - Hive MAPJOIN作业将多少数据视为 “too large”?

hadoop - 无法通过临时Hive表将文本数据作为ORC加载到Hive表中

json - hive 中的JSON解析问题

sql - Oracle SQL : LEAST() returns multiple rows. ..?