7.1.1. 没有比这更详细的推导 attention为什么除以根号dk——深入理解Bert系列文章
目录
[TOC]
7.1.1.1. 维持均值为0,方差为1的分布
7.1.1.1.1. 基础知识
随机变量
对随机事物的量化。例如硬币正反面是随机的,用0和1表示正反面,就成了随机数。
期望
E(aX)=aE(X)
连续型期望
E[X]=∫−∞∞xf(x)dx
离散型期望
E(X)=∑i=1∞xipxi
条件期望
随机变量X的条件期望$E(X|Y=y$) 依赖于Y的值y,即 $E(X|Y=y)$是y的函数 ,则$E(X|Y)$是Y的函数 。
举例:投硬币,正面朝上的概率为Y,投掷次数为n,正面朝上次数为X,则 $E(X|Y=y)=ny$,得出 $E(X|Y)=nY$ ,因此$E(X|Y)$也是随机变量。
条件期望
离散型
E(X∣Y=y)=∑x∈XxP(X=x∣Y=y)=∑x∈XxP(Y=y)P(X=x,Y=y)
连续型
E(X∣Y=y)=∫XxfX(X∣Y=y)dx
条件期望的期望
离散型
E[E[X∣Y]]=∑yPY(y)E[X[Y=y]
连续型
E[E[X∣Y]]=∫−∞∞E[X∣Y=y]fY(y)dy
迭代期望法则
又名重期望法则:E[E[X∣Y]]=E[X],即条件期望的期望等于无条件期望。(根据全期望定理可得出)
方差
$Var(aX)=a^{2}Var(X)$
var[X]=E[(X−E(X))2]
=E[X2+E[X]2−2XE[X]]
=E[X2]+E[X]2−2E[X]2
=E[X2]−E[X]2 【公式一】
协方差
cov[X,Y]=E[(X−E(X))(Y−E(Y))]
=E[XY−XE[Y]−E[X]Y+E[X]E[Y]]
=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]E[Y]
=E[XY]−E[X]E[Y] 【公式二】
同变量的协方差等于方差:cov[X,X]=var[X]
两个分布独立的变量协方差为0。
7.1.1.1.2. 随机变量点积
期望
E[XY]=E[E[XY∣Y]]=E[YE[X∣Y]] 迭代期望法则
E[E[XY∣Y]]=∑yPY(y)E[Xy[Y=y]
=∑yPY(y)yE[X[Y=y] 常数提前
=E[YE[X∣Y]]
当X和Y分布独立E[X∣Y]=E[X],则:E[XY]=E[Y⋅E[X]]=E[X]⋅E[Y]
方差
var[XY]=E[X2Y2]−E[XY]2
根据公式一 和公式二 :
E[X2Y2]=cov[X2,Y2]+E[X2]E[Y2]
=cos[X2,Y2]+(E[X]2+vax[X])⋅(E[Y]2+var[Y])
E[XY]2=(cotX,Y]+E[X]E[Y])2
则var[XY] 等于
var[XY]=cot[X2,Y2]+(E[X]2+var[X])⋅(E[Y]2+var[Y])−(cov[X,Y]+E[X]E[Y])2
当X和Y分布独立cos[X2,Y2]=cos[X,Y]=0,则:
var[XY]=(E[X]2+var[X])⋅(E[Y]2+var[Y])−(E[X]E[Y])2
=E[X]2var[Y]+E[Y]2[X]+var[X][Y]
因为在这里X和Y是以0为均值的,所以var[XY]=var[X]var[Y]
7.1.1.1.3. 随机变量的和
设Z是n个随机变量的和,Z=∑i=1nXi
期望
E[Z]=∑i=1nE[Xi]
方差
var(Z)=cov[∑i=1nXi , ∑j=1nXj]
=∑i=1n∑j=1ncos[Xi,Xj]
当$X_i$互相独立:
var(Z)=∑i=1ncov[Xi,Xi]
=∑i=1nvar[Xi]
7.1.1.1.4. 随机向量点击
设q和k是两个$d_k$维的向量,并且每一维是独立的,且
E[qi]=E[ki]=0
var[qi]=var[ki]=1
i∈[0,dk]
那么:
E[q⋅k]=E[∑i=1dkqiki]
=∑i=1dkE[qiki)
=∑i=1dkE[qi]E[ki]
=0
var[q⋅k]=var[∑i=1dkqiki]
=∑i=1dkvar[qiki]
=∑i=1dkvar[qi][ki]
=∑i=1dkvar[qi][ki]
=∑i=1dk1
=dk
则:
var[√dkq⋅k]=dk1var[∑i=1dkqiki] $=1$
7.1.1.2. 引用
- Statistical-Properties-of-Dot-Product/proof.pdf at master · BAI-Yeqi/Statistical-Properties-of-Dot-Product (github.com)
关注本公众号,下期更精彩
