apache-spark - 本地文件和集群模式

标签 apache-spark cluster-computing

我刚刚开始使用 Apache Spark。我正在使用集群模式，我想处理一个大文件。我正在使用 SparkContext 中的 textFile 方法，它将读取所有节点上可用的本地文件系统。由于我的文件非常大，因此在每个集群节点中复制和粘贴非常痛苦。我的问题是:有什么方法可以将此文件放在共享文件夹等唯一位置吗？非常感谢

最佳答案

您可以将文件保存在 Hadoop 或 S3 中。然后您可以在 textFile 方法本身中给出文件的路径。

对于 s3:

val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")

对于hadoop:

val hdfsRDD  = sc.textFile("hdfs://...")

关于apache-spark - 本地文件和集群模式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37544745/

上一篇：apache-kafka - 如何在 Kafka 0.10 中找到主题分区的偏移范围？

下一篇：haskell - 为什么简单的 haskell add 函数不能按预期运行？

python - 为什么在 PySpark 中有两种读取 CSV 文件的选项？我应该使用哪一个？

apache-spark - Spark内部工作

scala - 将列名添加到从csv文件读取的数据中而没有列名

hadoop - Hadoop 不是更像一个网格而不是一个集群吗？

java - 如何分配计费系统中的负载？

java - BIRT 报告查看器异常

scala - coreNLP 显着减慢了 Spark 作业的速度`

hadoop - 找出每个节点的资源利用率并在集群中平均分配负载

linux - GPFS : mmremote: Unable to determine the local node identity