python - 使用 to_categorical 转换 np.array 时的内存问题

我有一个像这样的 numpy 数组:

[[0. 1. 1. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 1.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 1. 0. 1.]]

我这样转换它以减少内存需求:

x_val = x_val.astype(np.int)

结果是:

[[0 1 1 ... 0 0 1]
 [0 0 0 ... 0 0 1]
 [0 0 1 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 1]
 [0 0 0 ... 0 0 1]
 [0 0 0 ... 1 0 1]]

但是，当我这样做时:

x_val = to_categorical(x_val)

我得到:

in to_categorical
    categorical = np.zeros((n, num_classes), dtype=np.float32)
MemoryError

有什么想法吗？最终，numpy 数组包含二元分类问题的标签。到目前为止，我已经将它用作 Keras ANN 中的 float32，它运行良好，我获得了相当不错的性能。那么实际上是否有必要运行 to_categorical？

最佳答案

你不需要使用 to_categorical 因为我猜你正在做多标签分类。为了一劳永逸地避免任何混淆(!)，让我解释一下。

如果您正在进行二元分类，这意味着每个样本可能只属于一个两类，例如猫与狗或快乐与悲伤或正面评论与负面评论，然后:

标签应该像 [0 1 0 0 1 ... 0]，形状为 (n_samples,) 即每个样本都有一个(例如猫)或零(例如狗)标签。
用于最后一层的激活函数通常是 sigmoid(或任何其他输出值在 [0,1] 范围内的函数)。
通常使用的损失函数是binary_crossentropy。

如果您正在进行多类分类，这意味着每个样本可能只属于许多类中的一个，例如猫 vs 狗 vs 狮子或快乐 vs 中性 vs 悲伤或正面评论 vs 中性评论 vs 负面评论，然后:

标签应该是单热编码的，即 [1, 0, 0] 对应猫，[0, 1, 0] 对应狗和[0, 0, 1] 对应 lion，在本例中标签的形状为 (n_samples, n_classes)；或者它们可以是整数(即稀疏标签)，即 1 代表猫，2 代表狗，3 代表狮子，在本例中标签的形状为 (n_samples,)。 to_categorical 函数用于将稀疏标签转换为单热编码标签，当然如果您愿意的话。
使用的激活函数通常是softmax。
使用的损失函数取决于标签的格式:如果它们是单热编码，则使用 categorical_crossentropy，如果它们是稀疏的，则使用 sparse_categorical_crossentropy。

如果您正在进行多标签分类，这意味着每个样本可能属于零个、一个或多个类别，例如一个图像可能同时包含猫和狗，那么:

标签应该像 [[1 0 0 1 ... 0], ..., [0 0 1 0 ... 1]] 形状为 (n_samples , n_classes).例如，标签 [1 1] 表示相应的样本属于两个类别(例如猫和狗)。
使用的激活函数是 sigmoid，因为大概每个类都独立于另一个类。
使用的损失函数是binary_crossentropy。

关于python - 使用 to_categorical 转换 np.array 时的内存问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51890883/

python - 使用 to_categorical 转换 np.array 时的内存问题

上一篇：python - Python 中 STRINGS 的 switch-case 语句

下一篇：python - 窗口在 10 秒内未关闭