当前分类:parquet

apache-spark - 按时间戳分区好还是按年月日小时分区好

apache-spark - 如何修复非法 Parquet 类型 : INT64 (TIMESTAMP_MICROS) error

python-3.x - Spark 中的 Parquet 字节数据帧转换为 UTF-8

apache-spark - Spark - 在大型数据帧上进行分组和聚合时,Java 堆内存不足

google-bigquery - Airflow - 将 Parquet 表加载到 BigQuery 中

amazon-s3 - 在 AWS SageMaker(jupyter 笔记本)中打开来自 AWS S3 的 .Parquet 文件

amazon-web-services - parquet 文件存储在 AWS S3 中时可以拆分吗?

dask - 使用 Dask 从多个 Python 进程写入 Parquet 文件

amazon-web-services - 标记s3上spark读取的对象

python - 如何将 dask 数据帧保存到与 dask 调度程序/工作人员相同的机器上的 Parquet ?

scala - 无法读取 Parquet 支持的区分大小写的 Glue 表

apache-spark - 运行 Apache Hudi deltastreamer 时出错

python - 使用 dask.dataframe.to_parquet() 进行分区时丢失索引信息

apache-spark - Apache Spark + Parquet 不遵守使用 “Partitioned” Staging S3A Committer 的配置

java - S3错误线程中的异常 "main"java.lang.UnsatisfiedLinkError : org. apache.hadoop.io.nativeio.NativeIO$Windows.access0

apache-spark - 以 parquet 格式存储 Spark 数据帧时丢失数据

google-bigquery - BigQuery : Pricing for Querying parquet files, 作为外部数据源,来自 Coldline Cloud Storage 类

parquet - 如何在阶段中从 Parquet 文件中读取 ARRAY 列?

apache-spark - 如何复制 parquet 文件并覆盖 HDFS 上的旧文件

snowflake-cloud-data-platform - 雪花 Parquet 加载模式生成

热门标签: