spark-streaming - Spark Streaming 检查点到亚马逊 s3

我正在尝试将 rdd 检查点到非 hdfs 系统。来自 DSE document似乎无法使用 cassandra 文件系统。所以我打算使用 amazon s3 。但是我找不到任何使用 AWS 的好例子。

问题

我如何使用 Amazon S3 作为检查点目录？调用就足够了吗？
ssc.checkpoint(amazons3url) ?

除了用于检查点的 hadoop 文件系统之外，是否可以有任何其他可靠的数据存储？

最佳答案

来自 link 中的回答

解决方案1:

export AWS_ACCESS_KEY_ID=<your access>
export AWS_SECRET_ACCESS_KEY=<your secret>
ssc.checkpoint(checkpointDirectory)

将检查点目录设置为 S3 URL -s3n://spark-streaming/checkpoint
然后使用 spark submit 启动您的 spark 应用程序。
这适用于 spark 1.4.2
解决方案2:

  val hadoopConf: Configuration = new Configuration()
  hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
  hadoopConf.set("fs.s3n.awsAccessKeyId", "id-1")
  hadoopConf.set("fs.s3n.awsSecretAccessKey", "secret-key")

  StreamingContext.getOrCreate(checkPointDir, () => {
        createStreamingContext(checkPointDir, config)
      }, hadoopConf)

关于spark-streaming - Spark Streaming 检查点到亚马逊 s3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33475931/

上一篇：prolog - "logical variable"究竟是什么？实现语言功能的一般方法是什么？

下一篇：clion - 如何使 Ctrl+V 在 CLion 中工作

apache-spark - Spark 流 DirectKafkaInputDStream : kafka data source can easily stress the driver node

Java Spark Streaming JSON解析

apache-spark - 获取 : Error importing Spark Modules : No module named 'pyspark.streaming.kafka'

python - 在执行期间更改 Spark Streaming 中的批量大小

scala - Spark rdd 写入 Hbase

Java Spark : com. mongodb.spark.config.writeconfig 问题

hadoop - Spark 错误 : Failed to Send RPC to Datanode

apache-spark - Pyspark - FileInputDStream : Error finding new files

sql - 将 ROW_NUMBER 列添加到流式数据帧