python - RDD 转换图,Python

标签 python list apache-spark pyspark rdd

是否可以将Spark的map方法中除第一个元素之外的所有元素都转换为float(double),而不用for循环进行迭代?伪代码如下:

input = sc.textFile('file.csv').map(lambda line: line.split(',')) #create a rdd<list>
test = input.map(lambda line: line[0] else float(line)) #convert all elements of the list to float excepted the first one

最佳答案

这是可能的,尽管这可能不是一个好的做法。 RDD 是同构对象集合。如果您期望某种标题,最好将其删除,而不是将其完全拖过。不过你可以尝试这样的事情:

from itertools import islice

# Dummy data
with open("/tmp/foo", "w") as fw:
    fw.writelines(["foo", "1.0", "2.0", "3.0"])

def process_part(i, iter):
    if i == 0:
        # We could use enumerate as well
        for x in islice(iter, 1):
            yield x
    for x in iter:
        yield float(x)

(sc.textFile("foo.txt")
    .mapPartitionsWithIndex(process_part)
    .collect())
## ['"foo"', 1.0, 2.0, 3.0, 4.0]

如果您期望空分区,您首先计算元素:

rdd.mapPartitionsWithIndex(lambda i, iter: [(i,  sum(1 for _ in iter))]).collect()

并将 0 替换为第一个非空分区的索引。

关于python - RDD 转换图,Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35937788/

相关文章:

apache-spark - Spark Streaming 的动态分配

python - pandas 获得每个类别的最多 3 个分数行

python - 从具有特定索引的python列表中挑选项目

apache-spark - 超过 yarn throw 最大递归深度时, Spark 提交pyspark脚本

java - 如何强制 Spark 执行代码?

javascript - 从列表中获取包含 JavaScript 中的 Unicode 的字符串

python - AWS 将 MQTT 消息存储到 DynamoDB

python - Pytorch 是否允许将给定的转换应用于图像的边界框坐标?

python - 修改正则表达式

c# - 数组和列表与结构的差异