spark-streaming - Spark Streaming 检查点到亚马逊 s3

标签 spark-streaming

我正在尝试将 rdd 检查点到非 hdfs 系统。来自 DSE document似乎无法使用 cassandra 文件系统。所以我打算使用 amazon s3 。但是我找不到任何使用 AWS 的好例子。

问题

  • 我如何使用 Amazon S3 作为检查点目录? 调用就足够了吗?
    ssc.checkpoint(amazons3url) ?
  • 除了用于检查点的 hadoop 文件系统之外,是否可以有任何其他可靠的数据存储?
  • 最佳答案

    来自 link 中的回答

    解决方案1:

    export AWS_ACCESS_KEY_ID=<your access>
    export AWS_SECRET_ACCESS_KEY=<your secret>
    ssc.checkpoint(checkpointDirectory)
    

    将检查点目录设置为 S3 URL -s3n://spark-streaming/checkpoint
    然后使用 spark submit 启动您的 spark 应用程序。
    这适用于 spark 1.4.2
    解决方案2:
      val hadoopConf: Configuration = new Configuration()
      hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
      hadoopConf.set("fs.s3n.awsAccessKeyId", "id-1")
      hadoopConf.set("fs.s3n.awsSecretAccessKey", "secret-key")
    
      StreamingContext.getOrCreate(checkPointDir, () => {
            createStreamingContext(checkPointDir, config)
          }, hadoopConf)
    

    关于spark-streaming - Spark Streaming 检查点到亚马逊 s3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33475931/

    相关文章:

    scala - Spark Streaming mapWithState 似乎定期重建完整状态

    apache-spark - Spark 流 DirectKafkaInputDStream : kafka data source can easily stress the driver node

    Java Spark Streaming JSON解析

    apache-spark - 获取 : Error importing Spark Modules : No module named 'pyspark.streaming.kafka'

    python - 在执行期间更改 Spark Streaming 中的批量大小

    scala - Spark rdd 写入 Hbase

    Java Spark : com. mongodb.spark.config.writeconfig 问题

    hadoop - Spark 错误 : Failed to Send RPC to Datanode

    apache-spark - Pyspark - FileInputDStream : Error finding new files

    sql - 将 ROW_NUMBER 列添加到流式数据帧