apache-spark - 如何将 Spark 数据集保存到 Bigquery 表

标签 apache-spark apache-spark-sql spark-dataframe

有没有人有将数据集保存到 Bigquery 表的经验?

我正在使用以下 example 加载到 BigQuery成功地。这使用 RDD.saveAsNewAPIHadoopDataset 方法来保存数据。 我正在使用 Dataset(或 DataFrame)并寻找 saveAsNewAPIHadoopDataset 方法但找不到它。

任何例子都很棒。

最佳答案

你可以使用spark-bigquery它有一个方法dataframe.saveAsBigQueryTable:

df.saveAsBigQueryTable("my-project:my_dataset.my_table")

关于apache-spark - 如何将 Spark 数据集保存到 Bigquery 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41762040/

相关文章:

apache-spark - 适用于 1000 多个主题的 Spark Streaming 设计

apache-spark - 读取大量数据集时 Spark 2.1 挂起

sql - SparkSQL 是 RDBMS 还是 NOSQL?

scala - 在DataFrameWriter上使用partitionBy会使用列名而不只是值来写入目录布局

python - pyspark dataframe,groupby 和列的计算方差

apache-spark - 如何在特定节点上运行 Spark 作业

apache-spark - HADOOP_CONF_DIR已经设置仍然出现错误,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR

apache-spark - 使用 pyspark 将嵌套的 json 对象插入到 PostgreSQL

apache-spark - 如何使用 Spark-Xml 生成复杂的 XML

sql - Spark 将列值拆分为多行