python - 按分类变量分组的箱线图

标签 python pandas boxplot pandas-groupby

将 pandas 用于大型数据集,我已经将其缩减为我需要的信息。基本上,我想根据帖子中使用的主题标签数量(范围从 1- 6,我将其视为分类变量)。这导致总共 2*6=12 个箱线图都在同一帧中,以便于比较。

我做了一些研究,我知道 df.boxplot(by='x'),但这并没有说明比较两国的额外水平。

数据集包含主题标签数量(整数)、国家(字符串)、 friend 数量(整数)列。

值得一提的是,我对使用 Python 绘图(包括轴和子图之类的东西)还很陌生,所以如果可能,请在您的回答中包含一些额外信息。

编辑:数据集的小样本

       #followers  #friends  #mentions  #hashtags  country  lang_user place  
450            53        71          1          0       ja         es   NaN  
489            54        34          1          1       ja         es   NaN  
867          1569      1999          0          0       en         es   NaN  
1021          224       242          0          3       ja         ja   NaN  
1022          377       506          1          5       ja         ja   NaN  
1023          315       305          0          2       ja         ja   NaN

最佳答案

我喜欢使用 seaborn 进行此类可视化。 我猜你说的“额外级别”叫做“色调”。

import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",              
data=tips, palette="Set3")

结果是: enter image description here

查看此文档: https://seaborn.pydata.org/generated/seaborn.boxplot.html

关于python - 按分类变量分组的箱线图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49999166/

相关文章:

python - 将小计添加到 Pandas Groupby

r - 如何更改 R boxplot 函数中的 y 轴刻度

python - 当我只传递没有 x、y、数据参数的整个数据帧时,箱线图显示什么结果?

python - 使用 Python 编写具有 p 值的 Seaborn 相关矩阵

python - nargs > 1 的位置参数的元组元变量值

python - 从中间的 pandas df 读取行

Python - 如何减少列表并保留值?

python - Django 1.11 - 使用时区 2018-01-01T00 :00:00+03:00 into datetime object to be used for queryset 转换日期时间字符串

python - 更改从多个列值中选择的 pandas DataFrame 中的值

python - Pandas 数据框 reshape