node.js - 如何将spark rdd保存到csv文件

我需要检索 cassandra 表数据并将其保存到文件系统(linux 文件系统)。

该文件不应拆分为多个 Node ，而应在一个 Node 中创建。

我们有四个 Node (datastax) cassandra 集群，以 Spark 模式运行。 dse版本:5.0.1 Spark版本:1.6.1

这是我的示例代码:

val sc = new SparkContext(conf)
val sqlContext1 = new CassandraSQLContext(sc);
sqlContext1.setKeyspace("KeyspaceName");
val results = sqlContext1.sql("SELECT * FROM KeyspaceName.TableName");
 results.collect().foreach(println);

现在是结果 RDD。需要保存到单个 Node 的本地文件系统(linux)。

我关注了一些博客，但没有效果。有人可以指导解决这个问题吗？

最佳答案

输出位置需要可由 Spark 集群中的所有 Node 访问。您可以将位置映射为网络文件夹并将其指定为输出位置。

Spark 2+
results.write.csv(path_to_network_folder)

Spark 1.6 与 Scala 2.11
从 https://github.com/databricks/spark-csv 添加依赖项 spark-csv像这样:
libraryDependency += "com.databricks"% "spark-csv_2.11"% "1.5.0"

代码看起来像这样: results.write.format("com.databricks.spark.csv").save(path_to_network_folder)

关于node.js - 如何将spark rdd保存到csv文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46919539/

上一篇：node.js - 升级node/npm后需要安装npm吗？

下一篇：node.js - 为什么我的 jwt token 在背面而不是正面返回 null

javascript - 点对点 Javascript 等

javascript - AngularJS - 如果用户登录，则显示/隐藏导航项目

mysql - 将制表符分隔的数据加载到mysql中

javascript - 为什么 setTimeout 触发的时间早于应有的时间？

javascript - 无法发送到特定房间和客户端(Socket.io 2.0.2)

java - 将 csv 文件转换为flare.json 时出现问题

python - 使用Python CSV DictReader创建多级嵌套字典

r - 如果值在范围内，则合并 2 个数据帧

shell - 使用 AWK 验证 if 循环条件中的日期格式