python - 元组的 Pandas 数据框?

标签 python pandas apache-spark pyspark

我有一个 pandas 数据框,我通过调用从列表(它是从 spark rdd 创建的)创建的:

newRdd = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row), ))).collect() 然后 df = pd.DataFrame(newRdd)

我的数据最终看起来像元组数据框,如下所示:

0  (2017-06-21, Sun, ATL, 10)
1  (2017-06-21, Sun, ATL, 11)
2  (2017-06-21, Sun, ATL, 11)

但我需要它看起来像一个带有列标题的标准表格:

date       dayOfWeek    airport   val1  
2017-06-11    Sun         ATL     11     

老实说,我对此一无所知,需要一些帮助。我尝试了很多不同的东西,但似乎没有任何效果。任何帮助将不胜感激。感谢您的宝贵时间。

最佳答案

你可以这样做:

df = pd.DataFrame([*df.A],columns = ['date','dayOfWeek','airport','val1','val2','val3','val4','val5','val6'])

我假设您已有的数据框中的列名称是 A

可以查看here用于元组解包。

希望这对您有所帮助。有任何问题请告诉我。

关于python - 元组的 Pandas 数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44979651/

相关文章:

python - pandas 在 groupby 级别 2 总和或平均条件上删除行

sql - 如何聚合 PySpark(或最终 SQL)中不同列的值?

scala - 如何在 Graphx 中并行 Prims 算法

python - 用 "Element Number"替换数组中的元素 (Python)

python - 提取由离散数据产生的样本波的波长

python - Pandas:在 DataFrame 中创建聚合列

python - 用 ggplot 绘制 2 geom_line()

scala - Spark 从 InputStream 创建数据帧?

python - 有没有办法使用系统默认网关以外的其他网关在 python 中发出 http 请求?

python - 为什么通过 python 默认变量初始化变量会跨对象实例化保持状态?