7.1.1. 没有比这更详细的推导 attention为什么除以根号dk——深入理解Bert系列文章

目录

[TOC]

7.1.1.1. 维持均值为0,方差为1的分布

7.1.1.1.1. 基础知识

随机变量

对随机事物的量化。例如硬币正反面是随机的,用0和1表示正反面,就成了随机数。

期望

E(aX)=aE(X)E(aX)=aE(X)

连续型期望

E[X]=xf(x)dxE [ X ] = \int _ { - \infty } ^ { \infty } x f ( x ) d x

离散型期望

E(X)=i=1xipxiE ( X ) = \sum _ { i = 1 } ^ { \infty } x _ { i } p _ { x_i }

条件期望

随机变量X的条件期望$E(X|Y=y$) 依赖于Y的值y,即 $E(X|Y=y)$是y的函数 ,则$E(X|Y)$是Y的函数 。

举例:投硬币,正面朝上的概率为Y,投掷次数为n,正面朝上次数为X,则 $E(X|Y=y)=ny$,得出 $E(X|Y)=nY$ ,因此$E(X|Y)$也是随机变量。

条件期望

离散型

E(XY=y)=xXxP(X=xY=y)=xXxP(X=x,Y=y)P(Y=y)E ( X | Y = y ) = \sum _ { x \in \mathcal X } x P ( X = x | Y = y ) = \sum _ {x \in \mathcal X} x \frac { P ( X = x , Y = y ) } { P ( Y = y ) }

连续型

E(XY=y)=XxfX(XY=y)dxE ( X | Y = y ) = \int _ { \mathcal X} x f_{\mathcal X} ( X | Y = y ) d x

条件期望的期望

离散型

E[E[XY]]E [ E [ X | Y ] ]=yPY(y)E[X[Y=y]=\sum _ { y } P_Y ( y )E [ X [ Y = y ]

连续型

E[E[XY]]E [ E [ X | Y ] ]=E[XY=y]fY(y)dy=\int _ { - \infty } ^ { \infty } E [ X | Y = y ] f _ { Y } ( y ) d y

迭代期望法则

又名重期望法则:E[E[XY]]=E[X]E [ E [ X | Y ] ] = E [ X ],即条件期望的期望等于无条件期望。(根据全期望定理可得出)

方差

$Var(aX)=a^{2}Var(X)$

var[X]=E[(XE(X))2] { v a r } [ X ] = E [ ( X - E ( X ) ) ^ { 2 } ]

=E[X2+E[X]22XE[X]]\qquad \quad = E [ X ^ { 2 } + E [ X ] ^ { 2 } - 2 X E [ X ] ]

=E[X2]+E[X]22E[X]2\qquad \quad= E [ X ^ { 2 } ] + E [ X ] ^ { 2 } - 2 E [ X ] ^ { 2 }

=E[X2]E[X]2\qquad \quad= E [ X ^ { 2 } ] - E [ X ] ^ { 2 } 【公式一】

协方差

cov[X,Y]=E[(XE(X))(YE(Y))] { c o v } [ X , Y ] = E [ ( X - E ( X ) ) ( Y - E ( Y ) ) ]

=E[XYXE[Y]E[X]Y+E[X]E[Y]]\qquad \qquad = E [ X Y - X E [ Y ] - E [ X ] Y + E [ X ] E [ Y ] ]

=E[XY]E[X]E[Y]E[X]E[Y]+E[X]E[Y]E[Y]\qquad \qquad = E [ X Y ] - E [ X ] E [ Y ] - E [ X ] E [ Y ] + E [ X ] E [ Y ] E [ Y ]

=E[XY]E[X]E[Y]\qquad \qquad = E [ X Y ] - E [ X ] E [ Y ] 【公式二】

同变量的协方差等于方差:cov[X,X]=var[X]cov [ X , X ] = { v a r } [ X ]

两个分布独立的变量协方差为0。

7.1.1.1.2. 随机变量点积

期望

E[XY]=E[E[XYY]]E [ X Y ] =E [ E [ X Y | Y ] ]=E[YE[XY]]= E [ Y E [ X | Y ] ] 迭代期望法则

E[E[XYY]]E [ E [ X Y| Y ] ]=yPY(y)E[Xy[Y=y]=\sum _ { y } P_Y ( y )E [ Xy [ Y = y ]

=yPY(y)yE[X[Y=y]\qquad \qquad \quad =\sum _ { y } P_Y ( y )yE [ X [ Y = y ] 常数提前

=E[YE[XY]]\qquad \qquad \quad = E [ Y E [ X | Y ] ]

当X和Y分布独立E[XY]=E[X]E [ X | Y ] = E [ X ],则:E[XY]=E[YE[X]]E [ X Y ] = E [ Y \cdot E [ X ] ]=E[X]E[Y]= E [ X ] \cdot E [ Y ]

方差

var[XY]=E[X2Y2]E[XY]2 { v a r } [ X Y ] = E [ X ^ { 2 } Y ^ { 2 } ] - E [ X Y ] ^ { 2 }

根据公式一公式二

E[X2Y2]=cov[X2,Y2]+E[X2]E[Y2]E [ X ^ { 2 } Y ^ { 2 } ] = cov [ X ^ { 2 } , Y ^ { 2 } ] + E [ X ^ { 2 } ] E [ Y ^ { 2 } ]

=cos[X2,Y2]+(E[X]2+vax[X])(E[Y]2+var[Y])\qquad \qquad = \cos [ X ^ { 2 } , Y ^ { 2 } ] + ( E [ X ] ^ { 2 } + v a x [ X ] ) \cdot ( E [ Y ] ^ { 2 } + v a r [ Y ] )

E[XY]2=(cotX,Y]+E[X]E[Y])2E [ X Y ] ^ { 2 } = ( \cot X , Y ] + E [ X ] E [ Y ] ) ^ { 2 }

var[XY] { v a r } [ X Y ] 等于

var[XY]=cot[X2,Y2]+(E[X]2+var[X])(E[Y]2+var[Y])(cov[X,Y]+E[X]E[Y])2 { v a r } [ X Y ] = \cot [ X ^ { 2 } , Y ^ { 2 } ] + ( E [ X ] ^ { 2 } + { v a r } [ X ] ) \cdot ( E [ Y ] ^ { 2 } + { v a r } [ Y ] ) - ( c o v [ X , Y ] + E [ X ]E [ Y ] ) ^ { 2 }

当X和Y分布独立cos[X2,Y2]=cos[X,Y]=0\cos [ X ^ { 2 } , Y ^ { 2 } ] = \cos [ X , Y ] = 0,则:

var[XY]=(E[X]2+var[X])(E[Y]2+var[Y])(E[X]E[Y])2 { v a r } [ X Y ] = ( E [ X ] ^ { 2 } + { v a r } [ X ] ) \cdot ( E [ Y ] ^ { 2 } + { v a r } [ Y ] ) - ( E [ X ] E [ Y ] ) ^ { 2 }

=E[X]2var[Y]+E[Y]2[X]+var[X][Y]\qquad \qquad = E [ X ] ^ { 2 } { v a r } [ Y ] + E [ Y ] ^ { 2 } [ X ] + { v a r } [ X ] [ Y ]

因为在这里X和Y是以0为均值的,所以var[XY]=var[X]var[Y] { v a r } [ X Y ] = { v a r } [ X ] { v a r } [ Y ]

7.1.1.1.3. 随机变量的和

设Z是n个随机变量的和,Z=i=1nXiZ = \sum _ { i = 1 } ^ { n } X _ { i }

期望

E[Z]=i=1nE[Xi]E [ Z ] = \sum _ { i = 1 } ^ { n } E [ X _ { i } ]

方差

var(Z)=cov[i=1nXi , j=1nXj] { v a r } ( Z ) = { c o v } [ \sum _ { i = 1 } ^ { n } X _ { i } \space ,\space \sum _ { j = 1 } ^ { n } X _ { j }]

=i=1nj=1ncos[Xi,Xj]\qquad \quad = \sum _ { i = 1 } ^ { n } \sum _ { j = 1 } ^ { n } \cos [ X _ { i } , X _ { j } ]

当$X_i$互相独立:

var(Z)=i=1ncov[Xi,Xi] { v a r } ( Z ) = \sum _ { i = 1 } ^ { n } cov [ X _ { i } , X _ { i } ]

=i=1nvar[Xi]\qquad \quad = \sum _ { i = 1 } ^ { n } { v a r } [ X _ { i } ]

7.1.1.1.4. 随机向量点击

设q和k是两个$d_k$维的向量,并且每一维是独立的,且

E[qi]=E[ki]=0E [ q _ { i } ] = E [ k _ { i } ] = 0

var[qi]=var[ki]=1 { v a r } [ q _ { i } ] = { v a r } [ k _ { i } ] = 1

i[0,dk]i \in [ 0 , d _ { k } ]

那么:

E[qk]=E[i=1dkqiki]E [ q \cdot k ] = E [ \sum _ { i = 1 } ^ { d _ { k } } q _ { i } k _ { i } ]

=i=1dkE[qiki)\qquad \quad = \sum _ { i = 1 } ^ { d _ { k } } E [ q _ { i } k _ { i } )

=i=1dkE[qi]E[ki]\qquad \quad= \sum _ { i = 1 } ^ { d _ { k } } E [ q _ { i } ] E [ k _ { i } ]

=0\qquad \quad=0

var[qk]=var[i=1dkqiki]{ v a r } [ q \cdot k ] = { v a r } [ \sum _ { i = 1 } ^ { d _ { k } }q_ik_i ]

=i=1dkvar[qiki]\qquad \quad= \sum _ { i = 1 } ^ { d _ { k } } { v a r } [ q _ { i } k _ { i } ]

=i=1dkvar[qi][ki]\qquad \quad= \sum _ { i = 1 } ^ { d _ { k } } { v a r } [ q _ { i } ] [ k _ { i } ]

=i=1dkvar[qi][ki]\qquad \quad= \sum _ { i = 1 } ^ { d _ { k } } { v a r } [ q _ { i } ] [ k _ { i } ]

=i=1dk1\qquad \quad= \sum _{i=1}^{d_{k}}1

=dk\qquad \quad= d _ { k }

则:

var[qkdk]=1dkvar[i=1dkqiki] { v a r } [\frac{q \cdot k }{\sqrt d_k} ] ={\frac{1 }{ d_k}} { v a r } [ \sum _ { i = 1 } ^ { d _ { k } }q_ik_i ] $=1$

7.1.1.2. 引用

  1. Statistical-Properties-of-Dot-Product/proof.pdf at master · BAI-Yeqi/Statistical-Properties-of-Dot-Product (github.com)
关注本公众号,下期更精彩

image-20220930221129484

results matching ""

    No results matching ""