神经机译,语境参数生成器

原标题:EMNLP 2018 |
结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

原文:https://www.tensorflow.org/versions/r1.5/tutorials/seq2seq

选自arXiv

澳门博彩在线官网,(全文99.9%由google翻译,自学使用)

作者:Emmanouil Antonios
Platanios等

作者:Thang Luong,Eugene Brevdo,Rui Zhao(Google Research
Blogpost,Github)

参与:白悦、刘晓坤

本教程的这个版本需要TensorFlow Nightly。
为了使用稳定的TensorFlow版本,请考虑其他分支,如tf-1.4。

通用和专用 NMT
模型分别在相似语言对和罕见语言对的翻译中具有优势,但这也反映了各自的劣势,取决于参数共享的程度。为此,CMU
的研究者在本文中提出了一种在两者之间取得平衡方法,不需要改变 NMT
原有架构,而是引入新的组件
CPG,来可控地实现不同语言对模型之间的参数共享。该组件可无缝整合不同的
NMT,并在基准数据集上取得当前最佳。研究者强调,该方法使我们更接近普适的中间语言。

如果使用这个代码库进行研究,请引用此。

神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得
NMT 快速发展,并在许多大规模环境中成功应用 (Wu et al., 2016; Crego et
al.,
2016)。编码器-解码器抽象使构建将任何语言的源句映射到向量表示,再将向量表示解码到任何目标语言的系统在概念上变得可行。因此,人们提出了各种方法来扩展这种多语言机器翻译的抽象
(Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al.,
2016; Firat et al., 2016a)。

介绍(Introduction)

序列 – 序列(seq2seq)模型(Sutskever et al.,
2014,
Cho et al.,
2014
)在机器翻译,语音识别和文本摘要等各种任务中取得了巨大的成功。
本教程为读者提供了seq2seq模型的全面理解,并展示了如何从头构建一个有竞争力的seq2seq模型。
我们专注于神经机器翻译(NMT)的任务,它是seq2seq模型的第一个测试平台。
包含的代码是轻量级的,高质量的,生产就绪,并结合最新的研究思路。
我们通过以下方式达到这个:

  1. 使用最近的解码器/注意力包装器(decoder / attention
    wrapper)API,TensorFlow 1.2数据迭代器
  2. 结合我们强大的专业知识,建立循环和seq2seq模型
  3. 为建立最好的NMT模型和重现Google’s NMT
    (GNMT)系统提供技巧和窍门。

我们相信提供人们可以轻松重现的benchmarks是非常重要的。
因此,我们提供了完整的实验结果,并在以下公开可用的数据集上对模型进行预训练:

  1. 小规模:IWSLT Evaluation
    Campaign提供的英语 –
    越南语TED对话语料库(133K个句子对)。
  2. 澳门博彩评级网址,大规模:WMT Evaluation
    Campaign提供的德英平行语料库(4.5M句子对)。

我们首先建立一些关于NMT的seq2seq模型的基本知识,解释如何建立和训练一个vanilla
NMT模型。 第二部分将着重于构建具有注意力机制的竞争性NMT模型。
然后,我们将讨论一些技巧和诀窍,以建立最佳NMT模型(包括速度和翻译质量),如TensorFlow最佳实践(批处理,分段),双向RNN,波束搜索(beam
search [这个是啥?])以及使用GNMT注意力扩展到多个GPU。

多语言 NMT
之前的工作可大致分为两种范式。第一个通用 NMT (Johnson et al., 2017; Ha
et al., 2016) 对所有语言使用单一模型。通用 NMT
没有任何特定语言的参数化,在翻译截然不同的语言和数据有限的情况下,这种模式过于简单化且非常不利。通过实验验证,Johnson
等人的方法(2017)在高样本复杂度情况下性能变差,因此在有限的数据设置中表现不佳。Ha
等人提出的通用模型(2016)需要输入句子的新编码方案,这会导致过大的词汇量从而难以扩展。第二种范式,特定于每种语言的编码器-解码器
(Luong et al., 2016; Firat et al.,
2016a),每种语言使用独立的编码器和解码器。这不允许跨语言共享信息,可能导致过度参数化,且在语言相似的情况下可能有害。

基础知识(Basic)

在本文中,CMU
的研究者在这两种方法之间取得了平衡,提出了一种能够分别为每种语言学习参数的模型,同时也能在相似语言之间共享信息。研究者使用了新的语境相关的参数生成器(CPG),它可以(a)泛化所有这些方法;(b)缓解上述通用和独立语言编码器-解码器系统的问题。它将语言嵌入作为翻译的语境进行学习,并用它们为所有语言对生成共享翻译模型的参数。因此,它为这些模型提供了每种语言单独学习参数的能力,同时也在相似语言之间共享信息。参数生成器是通用的,允许以这种方式增强任何现有的
NMT 模型。此外,它具有以下所期望的特征:

神经机器翻译的背景(Background on Neural Machine Translation)

在过去,传统的基于短语的翻译系统通过将源语句拆分成多个片段然后将其逐句翻译来执行他们的任务。
这导致了翻译产出的不流畅,并不像我们人类翻译的那样。
我们阅读整个源句子,理解它的意思,然后产生一个翻译。
神经机器翻译(NMT)模仿的就是这种方式!

澳门博彩评级网址 1

图1.编码器 – 解码器架构 – 用于NMT的一般方法的例子。
编码器将源语句转换为通过解码器传递的“意义”向量以产生翻译。

全球十大博彩app,具体而言,NMT系统首先使用编码器读取源句子来构建“思想”向量,表示句子含义的数字序列;
解码器然后处理句子向量以发出翻译,如图1所示。这通常被称为编码器 –
解码器体系结构。
NMT以这种方式解决了传统的基于短语的方法中的局部翻译问题:它可以捕捉语言的长期依赖性,例如性别协议;
语法结构等; 并通过谷歌神经机器翻译系统(澳门有名的赌场排名,Google Neural Machine
Translation
systems澳门十大赌场最新排名,)展示了更流利的翻译。

NMT模型根据其确切的体系结构而有所不同。
对于序列数据,很自然的选择是大多数NMT模型所使用的递归神经网络(RNN)。
编码器和解码器通常使用RNN。 但是,RNN模型在以下方面有所不同:(a)方向性

  • 单向或双向; (b)深度 – 单层或多层; 和(c)类型 –
    通常是普通RNN,长期短期记忆(LSTM)或门控循环单元(GRU)。
    有兴趣的读者可以在这篇博文中找到关于RNN和LSTM的更多信息。

在本教程中,我们以单向的深度多层RNN为例,将LSTM作为一个递归单元。
我们在图2中展示了这样模型的一个例子。在这个例子中,我们建立了一个模型,将源句子”I
am a student”翻译成目标句子”Je suisétudiant”。
在高层次上,NMT模型由两个递归神经网络组成:编码器RNN仅仅消耗输入的源单词而不作任何预测;
另一方面,解码器在预测下一个单词的同时处理目标语句。

欲了解更多信息,我们向读者介绍本教程所基于的Luong
(2016)。

澳门博彩评级网址 2

图2.神经机器翻译 – 一个深度循环架构的例子,将源句子“I am a
student”翻译成目标句子“Je suistétudiant”。
这里,“<s>”表示解码过程的开始,而“</ s>”表示解码器停止。

  1. 简单:类似 Johnson 等人(2017)和 Ha 等人(2016)的方法,且与 Luong
    等人(2016 年)和 Firat
    等人(2016a)的方法相反,它只需稍作修改就可以应用于大多数现有的 NMT
    系统,并且能够无缝地容纳注意力层。
  2. 多语言:和之前相同,允许使用相同的单个模型进行多语言翻译。
  3. 半监督:可以使用单语数据。
  4. 可扩展:通过在语言间使用大量但可控的共享来减少参数的数量,从而减少大量数据的需求,如
    Johnson
    等人所述(2017)。它还允许语言的解耦,避免对大量共享词汇需求,如 Ha
    等人所述(2016)。
  5. 适应性强:无需完全重新训练就可以适应新语言。
  6. 当前最先进的方法:比成对 NMT 模型和 Johnson
    等人的模型具备更好的性能。(2017
    年)。事实上,该方法优于最先进的性能。

安装教程(Installing the Tutorial)

要安装本教程,您需要在系统上安装TensorFlow。 本教程需要TensorFlow
Nightly。 要安装TensorFlow,请按照此处的安装说明进行操作。
一旦安装了TensorFlow,您可以运行以下命令来下载本教程的源代码:

git clone https://github.com/tensorflow/nmt/

作者首先介绍一个可用于定义和描述大多数现有 NMT
系统模块化框架,然后,在第 3
节中,将根据该框架介绍本研究的主要贡献,即语境参数生成器(CPG)。作者还论证了该方法使我们更接近普适的中间语言。

训练 – 如何建立我们的第一个NMT系统(Training – How to build our first NMT system)

首先,我们将深入探讨用具体的代码片断构建NMT模型的核心,我们将通过它更详细地解释图2。
我们将数据准备和完整的代码推迟到以后。
这部分是指文件model.py

在底层,编码器和解码器RNNs接收以下输入:首先是源句子,然后是指示从编码转换到解码模式的边界标记”<s>”
,和目标语句。
对于训练,我们会给系统提供以下张量,这些张量在时间上是主要格式,包含文字索引:

  • encoder_inputs [max_encoder_time,batch_size]:源输入单词。
  • decoder_inputs [max_decoder_time,batch_size]:目标输入单词。
  • decoder_outputs
    [max_decoder_time,batch_size]:目标输出单词,这些是decoder_input向左移动一个时间步,右边添加一个句尾结束标记。
    这里为了提高效率,我们一起训练多个句子(batch_size)。
    测试稍有不同,所以我们稍后再讨论。

论文:Contextual Parameter Generation
for Universal Neural Machine Translation

嵌入(Embedding)

鉴于单词的分类性质,模型必须首先查找源和目标的嵌入来检索相应的词表示(word
representations)。
为了使这个嵌入层起作用,首先为每种语言选择一个词汇表。
通常,选择词汇量V,只有最频繁的V词才被视为唯一。
所有其他单词都转换为”unknown”标记,并获得相同的嵌入。
嵌入权重,每种语言一套,通常在训练中学习。

# Embedding
embedding_encoder = variable_scope.get_variable(
    "embedding_encoder", [src_vocab_size, embedding_size], ...)
# Look up embedding:
#   encoder_inputs: [max_time, batch_size]
#   encoder_emb_inp: [max_time, batch_size, embedding_size]
encoder_emb_inp = embedding_ops.embedding_lookup(
    embedding_encoder, encoder_inputs)

同样,我们可以构建embedding_decoder和decoder_emb_inp。
请注意,可以选择使用预训练词表示(例如word2vec或Glove
vectors)来初始化嵌入权重。
一般来说,给定大量的训练数据,我们可以从头学习这些嵌入。

澳门博彩评级网址 3

编码器(Encoder)

一旦检索出来,嵌入字就作为输入被输入到主网络中,主网络由两个多层RNN组成

  • 一个源语言的编码器和一个目标语言的解码器。
    这两个RNN原则上可以分享相同的权重;
    然而,在实践中,我们经常使用两个不同的RNN参数(这些模型在拟合大型训练数据集时效果更好)。
    编码器RNN使用零矢量作为其起始状态,并且如下构建:

    # Build RNN cell
    encoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

    # Run Dynamic RNN
    # encoder_outputs: [max_time, batch_size, num_units]
    # encoder_state: [batch_size, num_units]
    encoder_outputs, encoder_state = tf.nn.dynamic_rnn(

      encoder_cell, encoder_emb_inp,
      sequence_length=source_sequence_length, time_major=True)
    

请注意,为避免浪费计算,句子具有不同的长度,我们通过source_sequence_length告诉dynamic_rnn确切的源句子长度。
由于我们的输入是时序重要的,我们设置time_major = True。
在这里,我们只建立一个单层的LSTM,encoder_cell。
我们将介绍如何构建多层LSTM,添加dropout,并在后面的章节中使用attention。

  • 论文地址:
  • 项目地址:

解码器(Decoder)

解码器也需要访问源信息,一个简单的方法就是用编码器的最后一个隐藏状态encoder_state来初始化它。
在图2中,我们将源语词“student”的隐藏状态传递给解码器端。

# Build RNN cell
decoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

# Helper
helper = tf.contrib.seq2seq.TrainingHelper(
    decoder_emb_inp, decoder_lengths, time_major=True)
# Decoder
decoder = tf.contrib.seq2seq.BasicDecoder(
    decoder_cell, helper, encoder_state,
    output_layer=projection_layer)
# Dynamic decoding
outputs, _ = tf.contrib.seq2seq.dynamic_decode(decoder, ...)
logits = outputs.rnn_output

在这里,这个代码的核心部分是BasicDecoder对象、解码器,其接收decoder_cell(类似于encoder_cell),帮助器,以及之前的encoder_state作为输入。
通过分离出解码器和帮助器,我们可以重用不同的代码库,例如,可以用GreedyEmbeddingHelper代替TrainingHelper来进行贪婪的解码。
请参阅helper.py。

最后,我们没有提到projection_layer是一个稠密的矩阵,它将顶部隐藏状态转化为维数为V的logit向量。我们在图2的顶部说明了这个过程。

projection_layer = layers_core.Dense(
    tgt_vocab_size, use_bias=False)

摘要:我们对现有神经机器翻译(NMT)模型进行了简单修正,允许使用单个通用模型完成多种语言之间的翻译,同时允许语言特定的参数化,并且还可以用于域适应。我们的方法不需要改变标准
NMT
系统的模型架构,而是引入了新的组件,即语境参数生成器(CPG),可以生成系统的参数(例如,神经网络中的权重)。该参数生成器接受源语言嵌入和目标语言嵌入作为输入,并分别为编码器和解码器生成参数。模型的其余部分保持不变,并在所有语言中共享。我们展示了这种简单的修正如何使系统使用单语数据进行训练并实现
zero-shot 翻译。我们进一步表明,它能够超越 IWSLT-15 和 IWSLT-17
数据集的当前最佳性能,并且学习的语言嵌入能够发现语言之间的有趣关系。

损失(Loss)

基于上面的logits,我们现在准备计算我们的训练损失:

crossent = tf.nn.sparse_softmax_cross_entropy_with_logits(
    labels=decoder_outputs, logits=logits)
train_loss = (tf.reduce_sum(crossent * target_weights) /
    batch_size)

这里,target_weights是与decoder_outputs相同大小的0-1矩阵。
它将目标序列长度之外的值填充0。

重要说明:值得指出的是,我们用batch_size来分割损失,所以我们的超参数对batch_size是“不变的”。
有些人用(batch_size *
num_time_steps)来划分损失,减少了短句的错误。
更微妙的是,我们的超参数(应用于前一种方式)不能用于后一种方式。
例如,如果两种方法都使用SGD来学习1.0,则后一种方法有效地使用1 /
num_time_steps的更小的学习速率。

澳门博彩评级网址 4

梯度计算和优化(Gradient computation & optimization)

现在我们已经定义了NMT模型的正向传播。 计算反向传播只是几行代码的问题:

# Calculate and clip gradients
params = tf.trainable_variables()
gradients = tf.gradients(train_loss, params)
clipped_gradients, _ = tf.clip_by_global_norm(
    gradients, max_gradient_norm)

训练RNNs的重要步骤之一是梯度裁剪。 在这里,我们在全局范围内进行裁剪。
最大值max_gradient_norm通常设置为5或1的值。最后一步是选择优化器。
Adam优化器是一个常用的选择。 我们也选择一个学习率。
learning_rate的值通常可以在0.0001到0.001之间; 随着训练的进行可以减少。

# Optimization
optimizer = tf.train.AdamOptimizer(learning_rate)
update_step = optimizer.apply_gradients(
    zip(clipped_gradients, params))

在我们自己的实验中,我们使用标准SGD(tf.train.GradientDescentOptimizer),其学习速率逐步降低,这样可以获得更好的性能。
参见
benchmarks。

未完待续

图 1:在我们的模块化框架下的 NMT
系统概述。我们的主要贡献在于参数生成器模块(即,耦合或解耦——具有蓝色字体的每个框是单独的选项)。注意,g
表示参数生成器网络。在我们的实验中,我们考虑该网络的线性形式。但是,我们的贡献并不取决于其他模块的选择;我们仍然可以将具有不同架构的参数生成器和不同类型的词汇表用于编码器和解码器。

澳门博彩评级网址 5

表 1:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-15 数据集的 Google
多语言 NMT
模型(GML)的比较。百分比的并列行显示训练时使用多少部分(1%、10%、100%)的平行语料库;其余的仅用作单语数据。表中显示了
BLEU 和 Meteor 指标的结果。CPG *表示与 CPG
相同的模型,但未使用自动编码训练样本进行训练。每种情况下的最佳分数加粗显示。

澳门博彩评级网址 6

表 2:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-17 数据集的 Google
多语言 NMT 模型(GML)的比较。因为 Meteor 不支持 It、Nl 和
Ro,所以仅显示了 BLEU 度量标准的结果,CPG8 表示使用 8 个语言嵌入来表示
CPG。「C4」下标表示用于受控参数共享的 CPG 的低级版本(参见第 3.1
节),使用等级 4 等。每种情况下的最佳得分加粗显示。

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

责任编辑: