我正在创建一个像这样的 2.csv 文件的 RDD
val combineRDD = sc.textFile("D://release//CSVFilesParellel//*.csv")
然后我想在这个 RDD 上定义自定义分区,这样一个分区必须包含一个文件。
以便跨一个节点处理每个分区,即一个 csv 文件,以加快数据处理速度
是否可以根据文件大小或一个文件中的行数或一个文件的文件结尾字符编写自定义分区程序?
我如何实现这一目标?
一个文件的结构如下所示:
00-00
时间(以秒为单位) Measure1 Measure2 Measure3..... Measuren
0
0.25
0.50
0.75
1
...
3600
1.第一行数据包含小时:分钟
每个文件包含 1 小时或 3600 秒的数据
2.第一列是第二列,分为4个部分,每部分250 ms,数据记录250 ms
谢谢你。
问候,
维奈·乔格卡
最佳答案
让我们回到基础。
要在 spark 中使用自定义输入格式,请遵循
http://bytepadding.com/big-data/spark/combineparquetfileinputformat/
关于scala - 在 Apache Spark 中对 RDD 进行分区,使得一个分区包含在一个文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37701326/