Transformer架构学习
malong 发布于 2025-01-09

训练数据和批处理

我们在标准WMT 2014英语德语数据集上进行了训练,该数据集包含约450万个句子配对。句子使用字节对编码[3]进行编码,该编码具有共享源-目标词汇约37000个令牌。对于英语-法语,我们使用了明显更大的WMT2014年英法数据集,由3600万个句子和32000个单词组成词汇[31]。句子对按大致的序列长度分组在一起。每次培训该批包含一组句子对,其中包含约25000个源令牌和25000个目标令牌。

 

正则化

我们在训练过程中采用了三种正则化方法:

Residual Dropout

我们将dropout[27]应用于每个子层的输出,然后再将其添加到子层输入和归一化。此外,我们将dropout应用于嵌入和编码器和解码器堆栈中的位置编码。对于基本模型,我们使用以下比率Pdrop = 0.1.

表2:Transformer在BLEU方面的得分高于之前最先进的模型英语到德语和英语到法语的newstest2014测试只需培训成本的一小部分

 

malong
关注 私信
文章
35
关注
0
粉丝
0