关于Spark RDD的问题很少。有人可以启发我。
分布式RDD缓存在每个节点的内存中,或将RDD数据
驻留在hdfs磁盘上。或仅当任何应用程序运行RDD数据时,
缓存在内存中?
在hdfs块上,RDD将首次从以下位置读取数据(I / O操作)
块,然后将其持久地缓存。至少要有一次
从磁盘读取数据,是真的吗???
首先将数据存储在hdfs中,然后从hdfs块加载到RDD中的方法是什么?
目的是先将数据存储到hdfs,然后再将其加载到
在内存中会出现延迟?
最佳答案
如果要将其存储在高速缓存中(在RAM中),则可以使用
cache()
函数。 val newfile = sc.textFile("file:///home/user/sample.txt")
指定文件路径。
默认情况下,spark将hdfs作为存储,您可以使用上述行来更改它。
不要忘记放三个///:
file:///
关于apache-spark - Spark RDD是存储在 block 中还是存储在内存中?关于Spark的查询很少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36533847/