python - 将 PostgreSQL 加速到 BigQuery

标签 python postgresql pandas amazon-ec2 google-bigquery

我想将一些当前存储在 postGreSQL 中的数据上传到 Google Bigquery，以查看这两个工具的比较情况。

要四处移动数据，有很多选择，但迄今为止我发现的最用户友好(对我而言)的选择利用了 python pandas 的强大功能。

sql = "SELECT * FROM {}".format(input_table_name)
i = 0
for chunk in pd.read_sql_query(sql , engine, chunksize=10000):
    print("Chunk number: ",i)
    i += 1
    df.to_gbq(destination_table="my_new_dataset.test_pandas",
              project_id = "aqueduct30",
              if_exists= "append" )

但是这种方法相当慢，我想知道我有什么选择可以加快速度。我的表有 1100 万行和 100 列。

postGreSQL 在 AWS RDS 上，我从 Amazon EC2 实例调用 python。两者都大而快。虽然有 16 个可用，但我目前没有使用多个处理器。

最佳答案

正如 JosMac 的评论所暗示的那样，您的解决方案/方法根本无法扩展到大型数据集。由于您已经在 AWS/RDS 上运行，因此我认为以下内容会更好: