注意力机制中的QKV代表什么,Bert中的CLS代表什么

本文围绕自然语言处理中的注意力机制展开。介绍了注意力的双组件框架,包括非自主性提示和自主性提示。阐述了Q、K、V的含义及公式,还讲解了自注意力机制和Bert中的[CLS]。指出Attention增加了模型可学习能力,让模型学到更多内容。

前言

皆为粗浅的理解,作为记录使用。

注意力

人类的注意力成为一种商品,销售者买广告吸引消费者的注意力,消费者买会员消除广告让自己的注意力集中在想看的内容上面。大概来讲我们的注意力是"双组件框架"的,即由非自主性提示和自主性提示组成的。

非自主性提示

当我们看这个世界时,会不自觉地关注某些东西,这就是非自主性提示,例如颜色鲜艳的,大的东西。

自主性提示

当我们主观的去看世界时,我们会格外关注某些东西,例如一个留学生会刻意更关注别人的穿着而不是内涵。当然了,这个行为成为习惯后会成为他自己的非自主性提示。

总的来说,自主性和非自主性的注意力揭示了人们的注意力方式。

引入一:心理学哲学理解

我们可以把自主性提示当成(query,Q)作为一种观察世界的主观意识(证据),我们观察这个世界称为感官的输入把它当为(value,V)。此时我们就知道,如果我们既有Q又有V,那么就可以通过Q去发现V中的类Q,从而看看我们主观意识可视化后的样子。

引入二:形象理解

另一种更形象的说法是,Q就相当于一个单词,V就相当于一个字典,我们希望在字典里找到这个单词。

关于Key(K)的理解是众说纷纭。我的理解是,首先K的数量和V是一致的,如果以引入一的视角来看,K就相当于一个意识和现实的链接。引入二的视角来看,K有点类似于把字典变成另一本全是同义词的字典。

公式

Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_{k}}})VAttention(Q,K,V)=softmax(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值