python - Tensorflow embedding_lookup

标签 python python-2.7 machine-learning tensorflow word-embedding

我正在尝试通过 TensorFlow tf.nn.embedding_lookup() 函数“从头开始”学习 imdb 数据集的单词表示。如果我理解正确的话,我必须在另一个隐藏层之前设置一个嵌入层,然后当我执行梯度下降时,该层将在该层的权重中“学习”一个词表示。但是,当我尝试这样做时,我的嵌入层和网络的第一个全连接层之间出现形状错误。

def multilayer_perceptron(_X, _weights, _biases):
    with tf.device('/cpu:0'), tf.name_scope("embedding"):
        W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0),name="W")
        embedding_layer = tf.nn.embedding_lookup(W, _X)    
    layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(embedding_layer, _weights['h1']), _biases['b1'])) 
    layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, _weights['h2']), _biases['b2'])) 
    return tf.matmul(layer_2, weights['out']) + biases['out']

x = tf.placeholder(tf.int32, [None, n_input])
y = tf.placeholder(tf.float32, [None, n_classes])

pred = multilayer_perceptron(x, weights, biases)
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred,y))
train_step = tf.train.GradientDescentOptimizer(0.3).minimize(cost)

init = tf.initialize_all_variables()

我得到的错误是:

ValueError: Shapes TensorShape([Dimension(None), Dimension(300), Dimension(128)])
and TensorShape([Dimension(None), Dimension(None)]) must have the same rank

最佳答案

出现形状错误是因为您使用二维张量 x 索引到二维嵌入张量 W。想到tf.nn.embedding_lookup() (及其近亲 tf.gather() )将 x 中的每个整数值 i 替换为行 W[i, :] .从错误消息中,可以推断出 n_input = 300embedding_size = 128。一般来说,tf.nn.embedding_lookup() 的结果维数等于 rank(x) + rank(W) - 1……在本例中为 3。当您尝试将此结果乘以 _weights['h1'] 时会出现错误,这是一个(二维)矩阵。

要修复此代码,这取决于您尝试做什么,以及您将输入矩阵传递给嵌入的原因。一个常见的做法是使用类似 tf.reduce_sum() 的操作将每个输入示例的嵌入向量聚合到每个示例的一行中。 .例如,您可以执行以下操作:

W = tf.Variable(
    tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0) ,name="W")
embedding_layer = tf.nn.embedding_lookup(W, _X)

# Reduce along dimension 1 (`n_input`) to get a single vector (row)
# per input example.
embedding_aggregated = tf.reduce_sum(embedding_layer, [1])

layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(
    embedding_aggregated, _weights['h1']), _biases['b1'])) 

关于python - Tensorflow embedding_lookup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35295191/

相关文章:

Python:使lib使用重新定义的类

python - 如何根据服务主体 ID 限制对 azure 函数的访问

ssl - 如何在 gevent streamServer 中只输入一次 SSL PEM 密码?

python - 在Python中交换字符串的第一个和最后一个字母

python - keras 模型中损失函数的奇怪行为,具有预训练的卷积基

python - 将 csv 字典列转换为行 pyspark

python - 使用选择排序对列表进行排序

machine-learning - scikit learn 离散化分类数值数据

machine-learning - 有使用强化学习进行文本分类的例子吗?

R 中的 R-CNN 用于分析航空照片