对于Transformer的Mask机制的再思考--Decoder部分_transformer decoder mask-CSDN博客

网站介绍:文章浏览阅读3.4k次,点赞7次,收藏14次。前言之前我曾经在一篇博客中有介绍关于Transformer模型的Encoder部分的mask,在这篇文章中,我打算将Decoder部分的mask机制也补充完整。OK,那么我们进入正题。Decoder结构首先我们先来看一下Decoder的结构,下面这张图取自google在2017年发的著名文章:Attention Is All You Need,也就是最初提出Transformer结构的文章。为了专注于Decoder的部分,关于原图中Encoder的部分我并没有截取。如果我们仔细观察D_transformer decoder mask