tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras

标签 tensorflow machine-learning tensorflow2.0 tf.keras

我有一些来自tensorflow的旧代码,我想将它们用于tensorflow2/tf.keras。我想保持相同的 LSTM 权重,但不知道如何转换格式。

我将旧权重保存在检查点文件中,并将它们保存在 csv 文件中。

我的旧代码看起来像这样:

input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.nn.rnn_cell.LSTMCell(layer_size), tf.nn.rnn_cell.LSTMCell(layer_size)]
stacked = tf.contrib.rnn.MultiRNNCell(lstm_layers)
features, state = tf.nn.dynamic_rnn(stacked, input_placeholder, dtype=tf.float32)

我的新代码看起来像这样:

input_placeholder = tf.placeholder(tf.float32, [None, None, input_units])
lstm_layers = [tf.keras.layers.LSTMCell(layer_size),tf.keras.layers.LSTMCell(layer_size)]
stacked = tf.keras.layers.StackedRNNCells(lstm_layers)
features = stacked(input_placeholder)
... #later in the code
features.set_weights(previous_weights)

旧的偏见似乎与新的偏见相匹配。 旧内核似乎是内核和循环内核的串联。 我能够将 previous_weights 加载到模型中(已明确检查正确加载的权重),但是我的测试未能产生相同的结果。 深入研究源代码,内核似乎在幕后有不同的格式。

是否可以使用这些旧保存的内核权重来计算内核和 recurrent_kernel (tf.keras)?

链接(如果有帮助):

https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/ops/rnn_cell_impl.py

https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/python/keras/layers/recurrent.py

最佳答案

以防其他人遇到这种情况。

我发现迁移权重存在三个差异:

  1. 内核在 axis=0 中进行改组。两种实现都使用一个(或两个)点积来执行 lstm 要求的四次点积运算,方法是连接 axis=0 中的权重。挑战在于交换这个串联权重矩阵的中间两个四分之一。
  2. 内核按 axis=1 划分。 rnn_cell实现有一个单一的权重矩阵,它是通过输入和隐藏状态的串联进行点积的,其中keras实现将它们存储为两个属性:_kernel_recurrent_kernel ,并在求和之前分别对它们进行点积。
  3. rnn_cell 的单元格计算中显式添加了遗忘偏差。 ,但已集成到 keras 中的单元偏置中,带有仅修改初始化的选项。

考虑这三个差异的迁移函数是

def convert_lstm_weights(tf1_kernel, tf1_bias, forget_bias=True):
    a, b, c, d = tf.split(tf1_kernel, num_or_size_splits=4, axis=1)
    lstm_kernel = tf.concat(values=[a, c, b, d], axis=1)
    kernel, recurrent_kernel = lstm_kernel[:-hps.hidden_dim], lstm_kernel[-hps.hidden_dim:]

    a, b, c, d = tf.split(tf1_bias, num_or_size_splits=4, axis=0)
    bias = tf.concat(values=[a, c + float(forget_bias), b, d], axis=0)  # + 1 to account for forget bias

    return kernel, recurrent_kernel, bias

我发现在使用过程中需要考虑两个差异:

  1. tf.compat.v1.nn.rnn_cell.LSTMCell中的激活函数是 sigmoid 但 tf.keras.LSTMCell是硬 sigmoid,因此需要在初始化时使用 activation="sigmoid" 设置.
  2. 状态以相反的顺序返回。
output, (c_state_new, m_state_new) = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_size, state_is_tuple=True)(input, (c_state, m_state))

变成了

output, (h_state_new, c_state_new) = tf.keras.layers.LSTMCell(hidden_size, activation="sigmoid")(input, (h_state, c_state))

其中隐藏状态由 m 引用在 rnn_cell 和 h在喀拉拉邦。

关于tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56535250/

相关文章:

java - 从 Weka Java API 获取欧几里得距离

python - TensorFlow 扩展 |训练器从 GenericExecutor 和 Keras 模型开始并不热心

python - `tf.keras.Model.compile`在TF2.0中做什么?

machine-learning - 如何确定 sklearn 中 MLP 分类器的 "loss function"?

function - 使用机器学习近似 32 位函数的最佳技术?

python - Keras不训练整个数据集

python - 如何创建一个层来反转softmax(TensorFlow,python)?

tensorflow - 得到形状 [4575, 32, 32, 3],但想要 [4575] Tensorflow

python - 关于矩阵的 tensorflow 梯度

python - 有人可以解释这个 log_normal_pdf 术语对 tensorflow VAE 演示代码的含义吗?