google-bigquery - 如何在 Google Cloud Storage 中拆分一个大的 csv.gz 文件?

标签 google-bigquery google-cloud-storage gsutil

尝试在 Google BQ 中加载表格时出现此错误:

Input CSV files are not splittable and at least one of the files is larger than the maximum allowed size. Size is: 56659381010. Max allowed size is: 4294967296.

有没有一种方法可以使用 gsutil 或类似工具拆分文件而无需再次上传所有内容?

最佳答案

您可以加载到 BigQuery 中的最大压缩 CSV 文件是 4 gigabytes .遗憾的是,GCS 不提供解压缩压缩文件的方法,也不提供拆分压缩文件的方法。 GZip 文件不能像 tar 文件那样任意拆分和重新组合。

我想您最好的选择可能是在与您的 GCS 存储桶相同的区域中启动一个 GCE 实例,将您的对象下载到该实例(这应该非常快,因为它只有几十 GB),解压缩对象(这会更慢),将该 CSV 文件分成一堆较小的文件(linux split 命令对此很有用),然后将对象上传回 GCS。

关于google-bigquery - 如何在 Google Cloud Storage 中拆分一个大的 csv.gz 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45684531/

相关文章:

python - 403 禁止 - cloud_storage_bucket get_media

java - 使用 Java 将文件上传到 Cloud Storage for Firebase

google-cloud-storage - 恢复整个存储桶

python - 如何安排作业在云中执行 Python 脚本以将数据加载到 bigquery?

google-bigquery - BigQuery 错误 : Encountered ""OVER" "OVER ""

google-analytics - 如何为新用户提供对 Data Studio 中 "Custom Query"数据源的访问权限?

google-bigquery - BigQuery 标准 SQL 自动将左连接中的 null 替换为零

javascript - Javascript 中的 Google Cloud Function 在函数完成之前完成

google-cloud-platform - 有没有办法通过存储在 Google Cloud Storage 中的文本文档进行 grep?

python - 在 Windows 上安装 gsutil