前言
皆为粗浅的理解,作为记录使用。
注意力
人类的注意力成为一种商品,销售者买广告吸引消费者的注意力,消费者买会员消除广告让自己的注意力集中在想看的内容上面。大概来讲我们的注意力是"双组件框架"的,即由非自主性提示和自主性提示组成的。
非自主性提示
当我们看这个世界时,会不自觉地关注某些东西,这就是非自主性提示,例如颜色鲜艳的,大的东西。
自主性提示
当我们主观的去看世界时,我们会格外关注某些东西,例如一个留学生会刻意更关注别人的穿着而不是内涵。当然了,这个行为成为习惯后会成为他自己的非自主性提示。
总的来说,自主性和非自主性的注意力揭示了人们的注意力方式。
引入一:心理学哲学理解
我们可以把自主性提示当成(query,Q)作为一种观察世界的主观意识(证据),我们观察这个世界称为感官的输入把它当为(value,V)。此时我们就知道,如果我们既有Q又有V,那么就可以通过Q去发现V中的类Q,从而看看我们主观意识可视化后的样子。
引入二:形象理解
另一种更形象的说法是,Q就相当于一个单词,V就相当于一个字典,我们希望在字典里找到这个单词。
关于Key(K)的理解是众说纷纭。我的理解是,首先K的数量和V是一致的,如果以引入一的视角来看,K就相当于一个意识和现实的链接。引入二的视角来看,K有点类似于把字典变成另一本全是同义词的字典。
公式
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_{k}}})VAttention(Q,K,V)=softmax(

本文围绕自然语言处理中的注意力机制展开。介绍了注意力的双组件框架,包括非自主性提示和自主性提示。阐述了Q、K、V的含义及公式,还讲解了自注意力机制和Bert中的[CLS]。指出Attention增加了模型可学习能力,让模型学到更多内容。

7564

被折叠的 条评论
为什么被折叠?



