图解自注意力机制_masked self-attention-CSDN博客

网站介绍:文章浏览阅读1.2w次,点赞30次,收藏91次。写在最前边这个文章是《图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)》的一部分,因为篇幅太长我就单独拿出来了。当然如果你只想了解自注意力机制也可以看看本文章的前半部分,这篇文章属算是入门科普读物了,不需要太多知识铺垫。后半部分主要是讲masked self-attention在GPT-2中的应用,不了解GPT-2的可以忽略这部分内容。我补充的内容格式如下:正文看一下下图,下图表示的是注意力处理输入序列的单词_masked self-attention