python - 处理大数据集进行图像分类

我正在使用 keras 进行图像分类，这是我的代码:

train_generator = datagen.flow_from_directory(
        train_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

validation_generator = datagen.flow_from_directory(
        validation_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

Found 70000 images belonging to 15 classes.
Found 6000 images belonging to 15 classes.

然后我使用这些数据来适应我的模型，这是我的代码:

model.fit_generator(
        train_generator,
        steps_per_epoch=train_samples // batch_size,
        epochs=epochs,
        validation_data=validation_generator,
        validation_steps=validation_samples// batch_size,)

我使用了各种批量大小，但结果不够，我的模型训练速度太慢，需要几个小时才能训练，有时还会崩溃，当我们有大数据集时，有人可以帮助训练模型吗？怎么办那么有效吗？

型号代码:

# a simple stack of 3 convolution layers with a ReLU activation and followed by max-pooling layers.
model = Sequential()
model.add(Convolution2D(32, (3, 3), input_shape=(img_width, img_height,3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(15))
model.add(Activation('sigmoid'))

最佳答案

嗯，提高性能的一种解决方案是使用GPU。

如果您在 TensorFlow 后端上运行，如果检测到任何可用的 GPU，您的代码将自动在 GPU 上运行。

pip install tensorflow-gpu

此外，您还可以选择使用 multi_gpu_model 类实现数据并行性。

from keras.utils import multi_gpu_model

# Replicates `model` on 8 GPUs.
# This assumes that your machine has 8 available GPUs.
parallel_model = multi_gpu_model(model, gpus=8)
parallel_model.compile(loss='categorical_crossentropy',
                       optimizer='rmsprop')

# This `fit` call will be distributed on 8 GPUs.
# Since the batch size is 256, each GPU will process 32 samples.
parallel_model.fit(x, y, epochs=20, batch_size=256)

我看到您的输出层使用 sigmoid 作为激活函数。那是错误的。您必须使用 softmax，因为 sigmoid 用于二元分类或两类模型。

Softmax 函数计算事件在 n 个不同类别上的概率分布。(在您的情况下为 15)。

一般来说，该函数将计算每个目标类相对于所有可能目标类的概率。稍后计算的概率将有助于确定给定输入的目标类别。

使用 Softmax 的主要优点是输出概率范围。范围为 0 到 1，所有概率的总和将等于 1。

关于python - 处理大数据集进行图像分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49952712/

python - 处理大数据集进行图像分类

上一篇：machine-learning - 如何训练隔离森林模型以给出最少的误报数？

下一篇：python - 将可变长度列表数据(来自 csv)分配给 'indicator_column' 特征