python - Spark统计函数Python

我问了一个有关统计函数的问题并得到了答案，但我正在寻找另一种方法:

我觉得很奇怪的是:
这有效:

myData = dataSplit.map(lambda arr: (arr[1]))
myData2 = myData.map(lambda line: line.split(',')).map(lambda fields: ("Column", float(fields[0]))).groupByKey()
stats[1] = myData2.map(lambda (Column, values): (min(values))).collect()

但是当我添加此功能时:

stats[4] = myData2.map(lambda (Column, values): (values)).variance()

它失败。

所以我放了一些打印品:

myData = dataSplit.map(lambda arr: (arr[1]))
print myData.collect()
myData2 = myData.map(lambda line: line.split(',')).map(lambda fields: ("Column", float(fields[0]))).groupByKey()
print myData2.map(lambda (Column, values): (values)).collect()

打印myData:

[u'18964', u'18951', u'18950', u'18949', u'18960', u'18958', u'18956', u'19056', u'18948', u'18969', u'18961', u'18959', u'18957', u'18968', u'18966', u'18967', u'18971', u'18972', u'18353', u'18114', u'18349', u'18348', u'18347', u'18346', u'19053', u'19052', u'18305', u'18306', u'18318', u’18317']

打印myData2:

[<pyspark.resultiterable.ResultIterable object at 0x7f3f7d3e0710>]

最佳答案

解决了

 print  myData.map(lambda line: line.split(',')).map(lambda fields: ("Column", float(fields[0]))).map(lambda (column, value) : (value)).stdev()

关于python - Spark统计函数Python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28817341/

上一篇：hadoop - 使用regexp_extract从Hive提取字符串的特定部分时出错

下一篇：java - NoClassDefFoundError : WordCount with hadoop-2. 2.0 在 ubuntu-12.04

相关文章：

python - pandas 中每组的数据操作

hadoop - 将ML 9与Connector-for-Hadoop2-2.2.3集成时，不是可用的网络错误吗？

java - 仅一个文件中几个小文件的SequenceFile压缩器

scala - Spark : produce RDD[(X, X)] 来自 RDD[X] 的所有可能组合

scala - 线程中的异常 "main"java.lang.NoSuchMethodError : scala. Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps

scala - 如何为 ML 算法矢量化 DataFrame 列？

python - 在 django 的模板循环中使用列表索引查找

python - 有效地找到由 numpy 数组的索引分割的子数组的 cumsum

hadoop - 使用centos 6.4_64位在hadoop 2.5.2上格式化namenode错误

python - PyQt5:pyuic5 - 未知的 Qt 小部件:QKeySequenceEdit