我刚刚开始使用 Apache Spark。我正在使用集群模式,我想处理一个大文件。我正在使用 SparkContext 中的 textFile 方法,它将读取所有节点上可用的本地文件系统。 由于我的文件非常大,因此在每个集群节点中复制和粘贴非常痛苦。我的问题是:有什么方法可以将此文件放在共享文件夹等唯一位置吗? 非常感谢
最佳答案
您可以将文件保存在 Hadoop
或 S3
中。
然后您可以在 textFile
方法本身中给出文件的路径。
对于 s3:
val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")
对于hadoop:
val hdfsRDD = sc.textFile("hdfs://...")
关于apache-spark - 本地文件和集群模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37544745/