如果这个问题看起来很简单,我很抱歉。但阅读 Keras 保存和恢复帮助页面:
https://www.tensorflow.org/beta/tutorials/keras/save_and_restore_models
我不明白如何在训练期间使用“ModelCheckpoint”进行保存。帮助文件提到它应该提供 3 个文件,我只看到一个,MODEL.ckpt。
这是我的代码:
checkpoint_dir = FolderName + "/tmp/model.ckpt"
cp_callback = k.callbacks.ModelCheckpoint(checkpoint_dir,verbose=1,save_weights_only=True)
parallel_model.compile(optimizer=tf.keras.optimizers.Adam(lr=learning_rate),loss=my_cost_MSE, metrics=['accuracy])
parallel _model.fit(image, annotation, epochs=epoch,
batch_size=batch_size, steps_per_epoch=10,
validation_data=(image_val,annotation_val),validation_steps=num_batch_val,callbacks=callbacks_list)
此外,当我想在训练后加载权重时:
model = k.models.load_model(file_checkpoint)
我收到错误:
"raise ValueError('Unknown ' + printable_module_name + ':' + object_name)
ValueError: Unknown loss function:my_cost_MSE"
my-cost_MSE 是我在训练中使用的成本函数。
最佳答案
首先,看起来您正在使用 tf.keras(来自tensorflow)实现,而不是keras
(来自 keras-team/keras 存储库)。在这种情况下,如 tf.keras guide 中所述:
When saving a model's weights, tf.keras defaults to the checkpoint format. Pass save_format='h5' to use HDF5.
另一方面,请注意,添加回调 ModelCheckpoint
通常大致相当于在每个 epoch 结束时调用 model.save(...)
,这就是为什么您应该期望保存三个文件(根据 checkpoint format )。
它不这样做的原因是,通过使用选项save_weights_only=True
,您只保存权重。大致相当于在每个时期结束时替换对 model.save 的调用为 model.save_weights 。因此,唯一保存的文件是带有权重的文件。
从这里开始,您可以通过两种不同的方式进行操作:
仅存储权重
您需要预先加载模型(比如说结构),然后调用 model.load_weights
而不是 keras.models.load_model
:
model = MyModel(...) # Your model definition as used in training
model.load_weights(file_checkpoint)
请注意,在这种情况下,自定义定义 (my_cost_MSE
) 不会出现问题,因为您只是加载模型权重。
存储整个模型
另一种方法是存储整个模型并相应地加载它:
cp_callback = k.callbacks.ModelCheckpoint(
checkpoint_dir,verbose=1,
save_weights_only=False
)
parallel_model.compile(
optimizer=tf.keras.optimizers.Adam(lr=learning_rate),
loss=my_cost_MSE,
metrics=['accuracy']
)
model.fit(..., callbacks=[cp_callback])
然后你可以通过以下方式加载它:
model = k.models.load_model(file_checkpoint, custom_objects={"my_cost_MSE": my_cost_MSE})
请注意,在后一种情况下,您需要指定 custom_objects
,因为反序列化模型需要它的定义。
关于python - Keras:如何保存模型或权重?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57152978/