tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras

我有一些来自tensorflow的旧代码，我想将它们用于tensorflow2/tf.keras。我想保持相同的 LSTM 权重，但不知道如何转换格式。

我将旧权重保存在检查点文件中，并将它们保存在 csv 文件中。

我的旧代码看起来像这样:

input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.nn.rnn_cell.LSTMCell(layer_size), tf.nn.rnn_cell.LSTMCell(layer_size)]
stacked = tf.contrib.rnn.MultiRNNCell(lstm_layers)
features, state = tf.nn.dynamic_rnn(stacked, input_placeholder, dtype=tf.float32)

我的新代码看起来像这样:

input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.keras.layers.LSTMCell(layer_size),tf.keras.layers.LSTMCell(layer_size)]
stacked = tf.keras.layers.StackedRNNCells(lstm_layers)
features = stacked(input_placeholder)
... #later in the code
features.set_weights(previous_weights)

旧的偏见似乎与新的偏见相匹配。旧内核似乎是内核和循环内核的串联。我能够将 previous_weights 加载到模型中(已明确检查正确加载的权重)，但是我的测试未能产生相同的结果。深入研究源代码，内核似乎在幕后有不同的格式。

是否可以使用这些旧保存的内核权重来计算内核和 recurrent_kernel (tf.keras)？

链接(如果有帮助):

https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/ops/rnn_cell_impl.py

https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/keras/layers/recurrent.py

最佳答案

以防其他人遇到这种情况。

我发现迁移权重存在三个差异:

内核在 axis=0 中进行改组。两种实现都使用一个(或两个)点积来执行 lstm 要求的四次点积运算，方法是连接 axis=0 中的权重。挑战在于交换这个串联权重矩阵的中间两个四分之一。
内核按 axis=1 划分。 rnn_cell实现有一个单一的权重矩阵，它是通过输入和隐藏状态的串联进行点积的，其中keras实现将它们存储为两个属性:_kernel和_recurrent_kernel ，并在求和之前分别对它们进行点积。
在 rnn_cell 的单元格计算中显式添加了遗忘偏差。，但已集成到 keras 中的单元偏置中，带有仅修改初始化的选项。

考虑这三个差异的迁移函数是

def convert_lstm_weights(tf1_kernel, tf1_bias, forget_bias=True):
    a, b, c, d = tf.split(tf1_kernel, num_or_size_splits=4, axis=1)
    lstm_kernel = tf.concat(values=[a, c, b, d], axis=1)
    kernel, recurrent_kernel = lstm_kernel[:-hps.hidden_dim], lstm_kernel[-hps.hidden_dim:]

    a, b, c, d = tf.split(tf1_bias, num_or_size_splits=4, axis=0)
    bias = tf.concat(values=[a, c + float(forget_bias), b, d], axis=0)  # + 1 to account for forget bias

    return kernel, recurrent_kernel, bias

我发现在使用过程中需要考虑两个差异:

tf.compat.v1.nn.rnn_cell.LSTMCell中的激活函数是 sigmoid 但 tf.keras.LSTMCell是硬 sigmoid，因此需要在初始化时使用 activation="sigmoid" 设置.
状态以相反的顺序返回。

output, (c_state_new, m_state_new) = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_size, state_is_tuple=True)(input, (c_state, m_state))

变成了

output, (h_state_new, c_state_new) = tf.keras.layers.LSTMCell(hidden_size, activation="sigmoid")(input, (h_state, c_state))

其中隐藏状态由 m 引用在 rnn_cell 和 h在喀拉拉邦。

关于tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56535250/

tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras

上一篇：machine-learning - 什么是强化学习中的最优性？

下一篇：python - 我需要获取数据帧最密集点的坐标(x，y)