machine-learning - Seq2Seq/NLP/Translation:生成目标语句后,最后的解码器隐藏状态是否带有任何剩余含义?

标签 machine-learning nlp artificial-intelligence recurrent-neural-network machine-translation

我现在正在研究机器翻译,并且对一个更深入地探究句子表示内部的问题感兴趣。

假设我们从并行训练的Eng和Fr词向量开始,在并行语料库上训练编码器-解码器Seq2Seq En-Fr转换系统。系统可以使用任何形式来构成句子嵌入(变形金刚,LSTM等)。然后,Seq2Seq翻译系统的工作是学习从英语单词向量构建英语句子表示,从法语单词向量构建法语句子表示,并通过编码器和解码器的链接,在同一空间中学习这两个句子表示。

训练模型并用模型编码一些英语句子后(例如,“这不是管道”。),嵌入联合表示空间中的句子对单词“ this”,“ is”,“ not”有所了解','a','pipe'等及其所有关联以及它们出现的顺序。 (1)

当解码器在编码上运行时,由于在单词之间的训练和统计关联期间馈给它的语料负载,它能够取出上述信息,并相应地输出“ Ceci”,“ n”, ''',``est'',``pas'',``une'',``pipe'',``(EOS)''。在每个步骤中,它都会从解码器的隐藏状态中提取并输出下一个法语单词,并对其进行转换,以使解码器可以找到接下来要解码的启发式“最突出”单词,依此类推,直到“(EOS)”为止。 。

我的问题是:输出(EOS)之后是否对最后一个解码器隐藏状态有任何解释?还有其他用途吗?当然,一个简单的答案是“不,该模型经过训练可以捕获数百万行英语文本,并对其进行处理,直到某个单词与隐藏状态一起产生(EOS)且最后一个解码器隐藏状态就是这样,其他所有内容受到明确训练的只是噪音而不是信号”。

但是我想知道这还有什么吗?我要说的是,如果您有一个用英语生成的句子嵌入,并且通过解码器模型将其含义用法语转储掉了,那么是否还有剩余的含义无法从英语翻译成法语?当然,很难解释任何特定句子翻译的最后一个隐藏状态,但是总的来说怎么样(例如,每个要翻译的句子中包含“法国”字样的最后一个隐藏状态的某些汇总,这意味着英语有些不同,因为它可以与“薯条”等配对。这是一个愚蠢的例子,但您可能会想到其他利用文化歧义的人等在语言上出现。)统计上的“不确定性”或翻译上的歧义(可能是英语中可能出现的“含义”以及可能以法语结尾但没有的联想)或其他语言的结构性方面(可能有助于我们理解) ,例如,英语和法语有何不同?

您认为这是什么类别的答案?


“没有信号”,
“可能会有一些信号,但是
很难提取,因为它取决于如何
模型受过训练”
“有一个可以可靠提取的信号,
即使我们必须汇总数百万个示例”?


我不确定这个问题是否真的有道理,但我对答案感到好奇,是否对此方面进行了研究?我出于简单的好奇心问。

笔记:
我知道存在最后一个隐藏状态,因为它与最后一个单词一起生成(EOS)。那是它的目的,没有别的(?)使其特别。我想知道我们是否还能从中获得更多的含义(即使它意味着像对解码器或其他东西应用解码器步骤一样对其进行转换)。

(1)(当然,机器学习模型没有像人类那样丰富的“概念”思想,因为它与思想,经验和感觉的所有关联都对机器学习模型而言,“概念”仅与语言中看到的其他词相关联。用于单词向量训练的单语语料库和用于翻译训练的双语语料库。)

最佳答案

回答我自己的问题,但仍然对想法感兴趣。我很直觉,答案是“否”,因为在生成隐藏状态嵌入时仅考虑了两个属性:(1)距离法语中所有标记中的下一个输出标记的余弦距离“最接近”,并且( 2)在将解码器转换应用于下一个单词时,产生与下一个单词相对应的隐藏状态。要使最后一个隐藏状态具有不同于“它是300 d(或我们正在使用的任何尺寸嵌入)上的点,单位圆与法国(EOS)令牌的余弦距离相近”的解释,则意味着我们将应用(2)来吧。但是训练数据从来没有任何跟随(EOS)的示例,因此,如果将解码器转换应用于最后的隐藏状态,我们将不会学到什么,并且根据我们的模型初始化,它只是随机的。

如果我们想对英法联合嵌入空间的“匹配度”有多好的了解,我们应该寻找并比较各种翻译的测试损失,而不是寻找最后的隐藏状态。但是,如果有人有不同的看法,仍然会对人们对此事的想法感兴趣。

关于machine-learning - Seq2Seq/NLP/Translation:生成目标语句后,最后的解码器隐藏状态是否带有任何剩余含义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59897074/

相关文章:

matlab - 根据不同的窗口宽度(非对称窗口宽度)将局部最大值附近的值分配给局部最大值的值

java - 在另一台机器上使用新创建的插件

algorithm - 广度优先搜索与迷宫中曼哈顿距离的 A*

artificial-intelligence - A*寻路,计算G成本

machine-learning - 如何在tensorflow train API中使用我自己的激活函数?

machine-learning - Caffe 嵌入层输入

java - 如何用java获取句子的逻辑部分?

machine-learning - 红眼检测

machine-learning - 回归模型评估

python - 文档与 doc2vec 的相似度