python-3.x - Groupby id 并在大矩阵 (3x3 mio.) 上展开(或求和)

标签 python-3.x pandas scipy sparse-matrix

我在描述网络连接的 .csv 文件中有一些数据。

        index  c     id_1   id_2
0           0  1        8     10
1           1  1        7     10
2           2  1        7     10
3           3  1  2189149     29
4           4  1       27     29

其中 c 表示一个连接。此数据的形状为 (3114045, 4),占用约 100 MB。

我想统计 id_1 与 id_2 连接的次数。我可以通过做

adj_pivot = pd.pivot_table(data=df, 
                     index="id_1", 
                     columns="id_2", 
                     values="c", 
                     aggfunc=np.sum)

或者——而且更快——我可以做到

adj_group = df.groupby(["id_1", "id_2"]).size().unstack(fill_value=0)

无论哪种方式,这都会给我我想要的输出:

id_2     10   29
id_1            
7        2.0  0
8        1.0  0
27       0    1.0
2189149  0    1.0

我的问题是,如果我用 pandas 执行上述 pivot/groupby,我将需要 ~5300 GB ram。

根据 sys.getsizeof(scipy.sparse.csr_matrix(df)),完整 (3114045, 4) 结构的稀疏版本占用 56 个字节。用 100 000 行尝试上述方法,然后将其变为稀疏,看起来我可以将矩阵的大小压缩 10^-8 倍。


所以,我的问题是:如何在稀疏结构上复制上述 pivot+sum/groupby+fill?如果无法完成,是否有分批执行此操作的好策略?

我看过答案here ,但对我来说似乎还是有点神秘。

最佳答案

这应该有效:

grouped = df.groupby(["id_1", "id_2"]).size().reset_index()
values = grouped.values.T
scipy.sparse.csr_matrix((values[2], (values[0], values[1])))

<2189150x30 sparse matrix of type '<class 'numpy.int64'>'
    with 4 stored elements in Compressed Sparse Row format>

关于python-3.x - Groupby id 并在大矩阵 (3x3 mio.) 上展开(或求和),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52005524/

相关文章:

python-3.x - 在 Python 中动态设置 Sanic 日志级别

python - 排序和比较 Dicts Python 列表

Pandas 绘制多个数据帧,一个数据帧产生一条平坦线

python - 将稀疏矩阵快速插入另一个矩阵

python - Python中数据点的平均趋势曲线

python - 使用协程和函数作为 Python 中的方法保持 SOLID 和 DRY

python-3.x - 连接具有不同列顺序的数据帧

python - 按小时将日期时间对象排序为 Pandas 数据框,然后使用 Matplotlib 可视化为直方图

python - 将 groupby 选定的列作为字典移动到新的 pandas 列中

python - Pandas 在每行的列上进行整合