python - Pandas 绘图错误地对图表上的分箱值进行排序

标签 python pandas matplotlib plot

我正在使用 Pandas 绘制一个 DataFrame,其中包含三种类型的列:兴趣、性别和经验值。

我想将体验点分到特定范围内,然后按分箱值、兴趣和性别对 DataFrame 进行分组。然后我想按兴趣绘制特定性别(例如:男性)的计数。

使用下面的代码,我能够得到我想要的图,但是,Pandas 错误地对 x 轴上的分箱值进行了排序(请参阅我的意思的附图)。

enter image description here

请注意,当我打印 DataFrame 时,合并值的顺序正确,但在图表中,合并值排序不正确。

Experience Points  Interest  Gender
(0, 8]             Bike      Female     9
                             Male       5
                   Hike      Female     6
                             Male      10
                   Swim      Female     7
                             Male       7
(8, 16]            Bike      Female     8
                             Male       3
                   Hike      Female     4
                             Male       7
                   Swim      Female    10
                             Male       4
(16, 24]           Bike      Female     4
                             Male       6
                   Hike      Female    10
...

我的代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import random

matplotlib.style.use('ggplot')


interest = ['Swim','Bike','Hike']
gender = ['Male','Female']
experience_points = np.arange(0,200)

df = pd.DataFrame({'Interest':[random.choice(interest) for x in range(1000)],
                   'Gender':[random.choice(gender) for x in range(1000)],
                   'Experience Points':[random.choice(experience_points) for x in range(1000)]})

bins = np.arange(0,136,8)
exp_binned = pd.cut(df['Experience Points'],np.append(bins,df['Experience Points'].max()+1))

exp_distribution = df.groupby([exp_binned,'Interest','Gender']).size()

# Printed dataframe has correct sorting by binned values 
print exp_distribution 

#Plotted dataframe has incorrect sorting of binned values 
exp_distribution.unstack(['Gender','Interest'])['Male'].plot(kind='bar') 

plt.show()

已尝试的故障排除步骤:

使用 plot(kind='bar',sort_columns=True) 不能解决问题

仅按分箱值分组然后绘图确实解决了这个问题,但我无法按兴趣或性别分组。例如以下作品:

exp_distribution = df.groupby([exp_binned]).size()
exp_distribution.plot(kind='bar') 

最佳答案

unstack() 把顺序弄乱了,必须恢复索引顺序。您可能需要为此提交错误报告。

解决方法:

exp_distrubtion.unstack(['Gender','Interest']).ix[exp_distrubtion.index.get_level_values(0).unique(),
                                                  'Male'].plot(kind='bar') 

enter image description here

关于python - Pandas 绘图错误地对图表上的分箱值进行排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32163063/

相关文章:

python - 识别以特定字符结尾的单词

python - 删除最小值、最大值和计算平均值

python - 无法让我的程序在 python matplotlib 中为多个补丁设置动画

matplotlib - 使用 matplotlib 进行漂亮的混淆矩阵可视化

matplotlib:获取 `bbox_inches=tight` 的结果边界框

python - 使用列表理解来解决 Collat​​z 猜想

python - 减少cython并行中的数组

python 使用 print 函数重定向 stdout,是否可以扩展到多个输出,时间是什么?

python - groupby 和平均 datetime64

python - Pandas 将多个列分组为集合并对其他列进行排序