go - 将 int96 时间戳从 Parquet 转换到 golang

标签 go parquet

将这个 12 字节数组 (int96) 作为时间戳。

[128 76 69 116 64 7 0 0 48 131 37 0]

如何将其转换为时间戳?

我知道前 8 个字节应该转换为代表纪元日期时间的 int64 毫秒。

最佳答案

前 8 个字节是以纳秒为单位的时间,而不是毫秒。它们也不是从纪元开始测量的,而是从午夜开始测量的。日期部分作为 Julian day number 单独存储在最后 4 个字节中.

这是我之前进行的一项实验的结果,可能会有所帮助。我将 '2000-01-01 12:34:56' 存储为 int96 并使用 parquet-tools 转储:

$ parquet-tools dump hdfs://path/to/parquet/file | tail -n 1
value 1: R:0 D:1 V:117253024523396126668760320

由于 117253024523396126668760320 = 0x60FD4B3229000059682500,这 12 个字节是 00 60 FD 4B 32 29 00 00 | 59 68 25 00,其中 |显示时间和日期部分之间的边界。

00 60 FD 4B 32 29 00 00 是时间部分。我们需要反转字节,因为 int96 时间戳使用反转字节顺序,因此我们得到 0x000029324BFD6000 = 45296 * 10^9 纳秒 = 45296 秒 = 12 小时 + 34 分钟 + 56 秒。

59 68 25 00 是日期部分,如果我们反转字节,我们得到 0x00256859 = 2451545 作为儒略日数,即 corresponds to 2000-01-01.

关于go - 将 int96 时间戳从 Parquet 转换到 golang,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53103762/

相关文章:

hadoop - 从具有Parquet格式的配置单元表查询时如何抑制日志

go - 如何将一个指针设置为乘法函数?

GOPATH 没有保存

go - 使用 [][]int slice 超出范围但适用于 map[int][]int

go - 编译器如何为 asm_*.S 文件选择架构?

go - golang 接口(interface)中是否可以有可选方法?

scala - 为什么在 spark-3 上写入 1900 年之前的时间戳不会抛出 SparkUpgradeException?

hadoop - 找出原始 Parquet 文件的大小?

python - dask DataFrame 查询然后示例错误