apache-spark - 如何在spark中生成大量记录

标签 apache-spark

如何在spark中生成具有多个字段的大量(百万)记录。我不从文件中读取数据,但数据将是随机生成的数据。我想根据该数据创建RDD.

最佳答案

可以引用Random data generation由 Spark 提供。

RandomRDDs 提供工厂方法来生成随机双 RDD 或向量 RDD。

import org.apache.spark.SparkContext
import org.apache.spark.mllib.random.RandomRDDs._


val sc: SparkContext = ...

// Generate a random double RDD that contains 1 million i.i.d. values drawn from the
// standard normal distribution `N(0, 1)`, evenly distributed in 10 partitions.
val u = normalRDD(sc, 1000000L, 10)
// Apply a transform to get a random double RDD following `N(1, 4)`.
val v = u.map(x => 1.0 + 2.0 * x)

关于apache-spark - 如何在spark中生成大量记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41141356/

相关文章:

caching - 缓存部分大于 100%

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

scala - 在Spark中读取压缩的xml文件

java - Apache Spark 工作线程超时

scala - 在 Spark 中向文本文件添加新行

apache-spark - 如何使用 apache Spark 访问从 impala 创建的 apache kudu 表

apache-spark - 从平均序列预测下一个事件

java - 运行 spark 作业时 cpu 使用率低

java - Spark 启动器。 java.lang.NoSuchMethodError : org. yaml.snakeyaml.Yaml.<init>

apache-spark - 有哪些工具/框架可用于 Spark 作业监控和警报?