python - 处理大数据集进行图像分类

标签 python machine-learning keras large-data

我正在使用 keras 进行图像分类,这是我的代码:

train_generator = datagen.flow_from_directory(
        train_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

validation_generator = datagen.flow_from_directory(
        validation_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

Found 70000 images belonging to 15 classes.
Found 6000 images belonging to 15 classes.

然后我使用这些数据来适应我的模型,这是我的代码:

model.fit_generator(
        train_generator,
        steps_per_epoch=train_samples // batch_size,
        epochs=epochs,
        validation_data=validation_generator,
        validation_steps=validation_samples// batch_size,)

我使用了各种批量大小,但结果不够,我的模型训练速度太慢,需要几个小时才能训练,有时还会崩溃,当我们有大数据集时,有人可以帮助训练模型吗?怎么办那么有效吗?

型号代码:

# a simple stack of 3 convolution layers with a ReLU activation and followed by max-pooling layers.
model = Sequential()
model.add(Convolution2D(32, (3, 3), input_shape=(img_width, img_height,3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(15))
model.add(Activation('sigmoid'))

最佳答案

嗯,提高性能的一种解决方案是使用GPU

如果您在 TensorFlow 后端上运行,如果检测到任何可用的 GPU,您的代码将自动在 GPU 上运行。

pip install tensorflow-gpu

此外,您还可以选择使用 multi_gpu_model 类实现数据并行性

from keras.utils import multi_gpu_model

# Replicates `model` on 8 GPUs.
# This assumes that your machine has 8 available GPUs.
parallel_model = multi_gpu_model(model, gpus=8)
parallel_model.compile(loss='categorical_crossentropy',
                       optimizer='rmsprop')

# This `fit` call will be distributed on 8 GPUs.
# Since the batch size is 256, each GPU will process 32 samples.
parallel_model.fit(x, y, epochs=20, batch_size=256)

我看到您的输出层使用 sigmoid 作为激活函数。那是错误的。您必须使用 softmax,因为 sigmoid 用于二元分类或两类模型。

Softmax 函数计算事件在 n 个不同类别上的概率分布。(在您的情况下为 15)。

一般来说,该函数将计算每个目标类相对于所有可能目标类的概率。稍后计算的概率将有助于确定给定输入的目标类别。

使用 Softmax 的主要优点是输出概率范围。范围为 0 到 1,所有概率的总和将等于 1

关于python - 处理大数据集进行图像分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49952712/

相关文章:

python - 导入 Keras 会引发 numpy 异常

python - 如何保存/加载具有中间输出的模型

python - 使用lxml,不能在XML文件上同时使用 'tostring'和 'strip.elements'

python - Pandas 时间序列 : Keep only one value peer week and id

java - 以固定时间间隔处理 JavaDStream

matlab - 使用带有隐式函数的 ezplot 时出现问题

machine-learning - 我们应该何时何地使用这些 keras LSTM 模型

python - Keras 多输入 AttributeError : 'NoneType' object has no attribute 'inbound_nodes'

python - Boto 文件上传到 S3 在 Windows 上失败 [errno : 10054]

python - 如何为 Python 属性实现 __iadd__