python - 与Pyspark合并

标签 python hadoop pyspark pyspark-sql

我正在使用Pyspark,我有Spark 1.6。我想将一些值(value)观归纳在一起。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我会将所有总值少于10%的项目归为一组(在这种情况下,C和D将归为新值“其他”)

所以,新表看起来像
+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道某种功能或简单的方法吗?
非常感谢您的帮助

最佳答案

您可以对数据框进行两次过滤,以获取仅包含要保留的值的数据框,而仅包含其他值。对其他数据框执行汇总以将它们求和,然后将两个数据框合并回去。根据数据的不同,您可能希望在所有数据之前都保留原始数据帧,从而无需对其进行两次评估。

关于python - 与Pyspark合并,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41068047/

相关文章:

python - 使用 python 调用 Salesforce 批量上传 API

python - 将常量元组值添加到元组列表

python - 如何从字符串中创建元组列表?

hadoop - 在 hadoop/hive 中将纪元时间转换为 PST 区域

hadoop - Cassandra 和 Hadoop

apache-spark - 组织.apache.spark.sql.AnalysisException : cannot resolve

python - psycopg2.OperationalError : FATAL: database does not exist

sql - Hive - 按年分区

python - 如何使用 pyspark 对 RDD 中的值进行分组和计数以返回一个小摘要?

python - 如何将 pyspark 日志记录级别设置为调试?