我有一些来自tensorflow的旧代码,我想将它们用于tensorflow2/tf.keras。我想保持相同的 LSTM 权重,但不知道如何转换格式。
我将旧权重保存在检查点文件中,并将它们保存在 csv 文件中。
我的旧代码看起来像这样:
input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.nn.rnn_cell.LSTMCell(layer_size), tf.nn.rnn_cell.LSTMCell(layer_size)]
stacked = tf.contrib.rnn.MultiRNNCell(lstm_layers)
features, state = tf.nn.dynamic_rnn(stacked, input_placeholder, dtype=tf.float32)
我的新代码看起来像这样:
input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.keras.layers.LSTMCell(layer_size),tf.keras.layers.LSTMCell(layer_size)]
stacked = tf.keras.layers.StackedRNNCells(lstm_layers)
features = stacked(input_placeholder)
... #later in the code
features.set_weights(previous_weights)
旧的偏见似乎与新的偏见相匹配。 旧内核似乎是内核和循环内核的串联。 我能够将 previous_weights 加载到模型中(已明确检查正确加载的权重),但是我的测试未能产生相同的结果。 深入研究源代码,内核似乎在幕后有不同的格式。
是否可以使用这些旧保存的内核权重来计算内核和 recurrent_kernel (tf.keras)?
链接(如果有帮助):
https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/ops/rnn_cell_impl.py
https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/keras/layers/recurrent.py
最佳答案
以防其他人遇到这种情况。
我发现迁移权重存在三个差异:
- 内核在 axis=0 中进行改组。两种实现都使用一个(或两个)点积来执行 lstm 要求的四次点积运算,方法是连接 axis=0 中的权重。挑战在于交换这个串联权重矩阵的中间两个四分之一。
- 内核按 axis=1 划分。
rnn_cell
实现有一个单一的权重矩阵,它是通过输入和隐藏状态的串联进行点积的,其中keras
实现将它们存储为两个属性:_kernel
和_recurrent_kernel
,并在求和之前分别对它们进行点积。 - 在
rnn_cell
的单元格计算中显式添加了遗忘偏差。 ,但已集成到keras
中的单元偏置中,带有仅修改初始化的选项。
考虑这三个差异的迁移函数是
def convert_lstm_weights(tf1_kernel, tf1_bias, forget_bias=True):
a, b, c, d = tf.split(tf1_kernel, num_or_size_splits=4, axis=1)
lstm_kernel = tf.concat(values=[a, c, b, d], axis=1)
kernel, recurrent_kernel = lstm_kernel[:-hps.hidden_dim], lstm_kernel[-hps.hidden_dim:]
a, b, c, d = tf.split(tf1_bias, num_or_size_splits=4, axis=0)
bias = tf.concat(values=[a, c + float(forget_bias), b, d], axis=0) # + 1 to account for forget bias
return kernel, recurrent_kernel, bias
我发现在使用过程中需要考虑两个差异:
tf.compat.v1.nn.rnn_cell.LSTMCell
中的激活函数是 sigmoid 但tf.keras.LSTMCell
是硬 sigmoid,因此需要在初始化时使用activation="sigmoid"
设置.- 状态以相反的顺序返回。
output, (c_state_new, m_state_new) = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_size, state_is_tuple=True)(input, (c_state, m_state))
变成了
output, (h_state_new, c_state_new) = tf.keras.layers.LSTMCell(hidden_size, activation="sigmoid")(input, (h_state, c_state))
其中隐藏状态由 m
引用在 rnn_cell 和 h
在喀拉拉邦。
关于tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56535250/