python - 多维 numpy 数组中列表的频率表

标签 python performance numpy scipy

我有一些(很多)二进制编码向量,例如:

[0, 1, 0, 0, 1, 0] #But with many more elements each one

它们都存储在一个 numpy(2D)数组中,例如:

[
 [0, 1, 0, 0, 1, 0],
 [0, 0, 1, 0, 0, 1],
 [0, 1, 0, 0, 1, 0],
]

我想获得每个标签集的频率表。因此,在本例中,频率表将是:

[2,1] 

因为第一个标签集有两个外观,而第二个标签集只有一个外观。

换句话说,我想实现 itemfreq来自 Scipy 或 histogram来自 numpy,但不是针对单个元素,而是针对列表。

现在我实现了以下代码:

def get_label_set_freq_table(labels):
    uniques = np.empty_like(labels)
    freq_table = np.zeros(shape=labels.shape[0])
    equal = False

    for idx,row in enumerate(labels):
        for lbl_idx,label_set in enumerate(uniques):
            if np.array_equal(row,label_set):
                equal = True
                freq_table[lbl_idx] += 1
                break
        if not equal:
            uniques[idx] = row
            freq_table[idx] += 1
        equal = False

    return freq_table

标记二进制编码向量。

它工作得很好,但当向量数量很大 (>58.000) 并且每个向量中的元素数量也很大 (>8.000) 时,它的值非常低

如何以更有效的方式完成此操作?

最佳答案

我假设您指的是仅包含 1 和 0 的数组。对于这些,我们可以使用二进制缩放将每一行减少为标量,然后使用np.unique -

In [52]: a
Out[52]: 
array([[0, 1, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1],
       [0, 1, 0, 0, 1, 0]])

In [53]: s = 2**np.arange(a.shape[1])

In [54]: a1D = a.dot(s)

In [55]: _, start, count = np.unique(a1D, return_index=1, return_counts=1)

In [56]: a[start]
Out[56]: 
array([[0, 1, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1]])

In [57]: count
Out[57]: array([2, 1])

这是一个概括的 -

In [33]: unq_rows, freq = np.unique(a, axis=0, return_counts=1)

In [34]: unq_rows
Out[34]: 
array([[0, 0, 1, 0, 0, 1],
       [0, 1, 0, 0, 1, 0]])

In [35]: freq
Out[35]: array([1, 2])

关于python - 多维 numpy 数组中列表的频率表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48116496/

相关文章:

python - 在linux OS下使用subprocess fork a process总是下载不了图片

performance - 如何防止 Elasticsearch 被索引限制?

java - 计算整数与数组每个元素之和的快速方法

python - 简化行和列提取,numpy

python - Pandas 使用索引名称和列名称应用函数

python - 正则表达式 获取介于两者之间的一切,Python

python - 标记外部节点,与networkx中的其他节点/边缘重叠最小

performance - 我如何评估我的 spark 应用程序

python - 快速过滤大量类似 numpy 的数组

python - scipy.fft 链接到 numpy.fft.fftpack.fft 的事实是否记录在任何地方?