apache-spark - 本地文件和集群模式

标签 apache-spark cluster-computing

我刚刚开始使用 Apache Spark。我正在使用集群模式,我想处理一个大文件。我正在使用 SparkContext 中的 textFile 方法,它将读取所有节点上可用的本地文件系统。 由于我的文件非常大,因此在每个集群节点中复制和粘贴非常痛苦。我的问题是:有什么方法可以将此文件放在共享文件夹等唯一位置吗? 非常感谢

最佳答案

您可以将文件保存在 HadoopS3 中。 然后您可以在 textFile 方法本身中给出文件的路径。

对于 s3:

val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")

对于hadoop:

val hdfsRDD  = sc.textFile("hdfs://...")

关于apache-spark - 本地文件和集群模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37544745/

相关文章:

apache-spark - Spark Streaming以Parquet格式附加到S3,小分区太多

python - 为什么在 PySpark 中有两种读取 CSV 文件的选项?我应该使用哪一个?

apache-spark - Spark内部工作

scala - 将列名添加到从csv文件读取的数据中而没有列名

hadoop - Hadoop 不是更像一个网格而不是一个集群吗?

java - 如何分配计费系统中的负载?

java - BIRT 报告查看器异常

scala - coreNLP 显着减慢了 Spark 作业的速度`

hadoop - 找出每个节点的资源利用率并在集群中平均分配负载

linux - GPFS : mmremote: Unable to determine the local node identity