hadoop - 何时在 Hive 表上创建布隆过滤器?

标签 hadoop hive statistics bloom-filter

我在 4 个不同的列上创建了一个带有布隆过滤器的 Hive 表,稍后决定使用 alter 命令添加更多。

但我不确定如何在 Hive 上刷新/重新生成布隆过滤器。

是否在插入数据时创建布隆过滤器?

它是在我们收集统计数据时创建的吗?列级还是表级?

或者我完全没有理解布隆过滤器并且它是即时创建的?

我已经阅读了文档,但还没有找到关于此的更多信息。尝试在没有运气的情况下浏览代码并找到触发方法的位置。

最佳答案

Is the bloom filter created during insertion of data?

是的。当我们向表中插入行时,布隆过滤器和 orc 文件中的索引数据是逐条创建的。为了查询效率,建议在插入数据之前对对应的列进行排序。

Is it created when we gather stats? Column or table level?

没有。如果新列添加到布隆过滤器列表,则应重新插入表数据。

关于hadoop - 何时在 Hive 表上创建布隆过滤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41437655/

相关文章:

sql - hive 连接的替代方案

hadoop - 将数据从临时表移至登台表时,获取GC开销限制超出错误

hadoop - Hive (Hadoop) 中的 COLLECT_SET()

php - 如何确定数据是在 PHP 中增加还是减少

python - 在Python中增量计算大数组的汇总统计

arrays - 在数组或Scala Spark中的其他任何集合中迭代RDD和存储的值

hadoop - Hive 创建表但失败 : SemanticException [Error 10035]: Column repeated in partitioning columns

hadoop - Hive外部表检索查询(Hive的新增功能)

sql - Apache Hive正则表达式中的错误

python - 如何测试均匀性