我正在尝试将 rdd 检查点到非 hdfs 系统。来自 DSE document似乎无法使用 cassandra 文件系统。所以我打算使用 amazon s3 。但是我找不到任何使用 AWS 的好例子。
问题
ssc.checkpoint(amazons3url) ?
最佳答案
来自 link 中的回答
解决方案1:
export AWS_ACCESS_KEY_ID=<your access>
export AWS_SECRET_ACCESS_KEY=<your secret>
ssc.checkpoint(checkpointDirectory)
将检查点目录设置为 S3 URL -
s3n://spark-streaming/checkpoint
然后使用 spark submit 启动您的 spark 应用程序。
这适用于
spark 1.4.2
解决方案2:
val hadoopConf: Configuration = new Configuration()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3n.awsAccessKeyId", "id-1")
hadoopConf.set("fs.s3n.awsSecretAccessKey", "secret-key")
StreamingContext.getOrCreate(checkPointDir, () => {
createStreamingContext(checkPointDir, config)
}, hadoopConf)
关于spark-streaming - Spark Streaming 检查点到亚马逊 s3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33475931/