我在 4 个不同的列上创建了一个带有布隆过滤器的 Hive 表,稍后决定使用 alter 命令添加更多。
但我不确定如何在 Hive 上刷新/重新生成布隆过滤器。
是否在插入数据时创建布隆过滤器?
它是在我们收集统计数据时创建的吗?列级还是表级?
或者我完全没有理解布隆过滤器并且它是即时创建的?
我已经阅读了文档,但还没有找到关于此的更多信息。尝试在没有运气的情况下浏览代码并找到触发方法的位置。
最佳答案
Is the bloom filter created during insertion of data?
是的。当我们向表中插入行时,布隆过滤器和 orc 文件中的索引数据是逐条创建的。为了查询效率,建议在插入数据之前对对应的列进行排序。
Is it created when we gather stats? Column or table level?
没有。如果新列添加到布隆过滤器列表,则应重新插入表数据。
关于hadoop - 何时在 Hive 表上创建布隆过滤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41437655/