python - 摆脱 Pandas 或其 PieChart 可视化引擎中无关紧要数据的聪明方法?

标签 python pandas visualization jupyter noise

可能会有很多无关紧要的边缘情况和数据噪音。我想要一个饼图(基于 Bokeh 或任何其他开源、免费的绘图库),可以看到这样的数据:

type size
 S    1
 V    2
 T    200
 ...
 Z    3333

减少到它的核心,将微不足道的(< 1% 类型大小)噪声放入新的“其他”类型中。

1) Pandas 可以自己做吗?如何? 2)是否有一些可视化已经集成了这样的功能?

最佳答案

考虑带有值计数的 pandas 系列 a

import pandas as pd
import numpy as np
from string import ascii_uppercase

np.random.seed([3,1415])
types = np.random.permutation(list(ascii_uppercase))
r = np.arange(1, 27)
r = r / r.sum()
s = np.random.choice(types, 10000, p=r)

a = pd.value_counts(s)

a.plot.pie(colormap='jet');

enter image description here


现在将所有代表少于 3% 的组归为一组 other

n = a / a.sum()

f = n < .03

a[~f].append(pd.Series(a[f].sum(), ['other'])).plot.pie(colormap='jet')

enter image description here

关于python - 摆脱 Pandas 或其 PieChart 可视化引擎中无关紧要数据的聪明方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45180930/

相关文章:

python - 将文件保存为没有表单的 FileField

python - 在循环中更改/添加变量。 (Python 2.7)

Python 从 pandas 日期列获取一周的前一天(在我的示例中是星期四)

python - 使用 Python Paramiko 将 .csv 文件从 SFTP 服务器读取到内存

Django 和交互式图形/网络可视化

apache - 如何以图形方式表示和操作 apache avro 架构

python - sess.run() 多个操作 vs 多个 sess.run()

Python使用ndarray中的每个元素作为lambda函数的参数

python - pandas read_csv 中最大化速度的最佳 block 大小是多少?

Python、几何和可视化