尝试在 Google BQ 中加载表格时出现此错误:
Input CSV files are not splittable and at least one of the files is larger than the maximum allowed size. Size is: 56659381010. Max allowed size is: 4294967296.
有没有一种方法可以使用 gsutil 或类似工具拆分文件而无需再次上传所有内容?
最佳答案
您可以加载到 BigQuery 中的最大压缩 CSV 文件是 4 gigabytes .遗憾的是,GCS 不提供解压缩压缩文件的方法,也不提供拆分压缩文件的方法。 GZip 文件不能像 tar 文件那样任意拆分和重新组合。
我想您最好的选择可能是在与您的 GCS 存储桶相同的区域中启动一个 GCE 实例,将您的对象下载到该实例(这应该非常快,因为它只有几十 GB),解压缩对象(这会更慢),将该 CSV 文件分成一堆较小的文件(linux split
命令对此很有用),然后将对象上传回 GCS。
关于google-bigquery - 如何在 Google Cloud Storage 中拆分一个大的 csv.gz 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45684531/