zhuzilin's Blog

about

概率论笔记(上)

date: 2024-08-01
tags: 数学  

看的是 IMPA 的 Probability Theory 课,教授是 Claudio Landim。

https://www.youtube.com/playlist?list=PLo4jXE-LdDTS5BYqea-LcHdtjKwVcepP7

Lecture 1 Introduction

setup:我们总会有三元组 (Ω,F,P)(\Omega, \mathcal{F}, P),其中:

  • Ω\Omega 是 abstract space
  • F\mathcal{F}σ\sigma-algebra
  • PPprobability measure,即

    • P:FR+{+}P:\mathcal{F}\rightarrow \mathbb{R}_+\cup\{+\infty\}
    • P()=0P(\varnothing)=0
    • {AjF,j1},AjAk=P[jAj]=jP[Aj]\{A_j\in\mathcal{F},j\ge1\},A_j\cap A_k=\varnothing \Rightarrow P[\cup_j A_j]=\sum_j P[A_j]
    • P(Ω)=1P(\Omega)=1,这条是 probablility 的部分。

定义X:ΩRX: \Omega\rightarrow \mathbb{R}random variable(R.V.),其中 R\mathbb{R} 我们会和 (R,B)(\mathbb{R},\mathcal{B}) 相结合(B\mathcal{B} 是 Borel σ\sigma-algebra,也就是包含 R\mathbb{R} 中所有开集的最小的 σ\sigma-algebra),如果 XX 是 measurable function,即 AB,X1(A)F\forall A\in\mathcal{B},X^{-1}(A)\in\mathcal{F}

定义:对于 random variable XXprobability distribution measure μX\mu_X(在 (R,B)(\mathbb{R},\mathcal{B}) 上定义的),满足:

μX(A)=P[X1(A)]=P[{ωΩX(ω)A}]\mu_X(A)=P[X^{-1}(A)]=P[\{\omega\in\Omega|X(\omega)\in A\}]

记作 μX(A)=P[XA]\mu_X(A)=P[X\in A]

  • 可以根据上面的 probability measure 的定义,证明这样定义的 μX\mu_X 也是 probability measure。

定义:对于 random variable XXdistribution function FX:R[0,1]F_X:\mathbb{R}\rightarrow [0,1],为:

FX(x)=P[Xx]F_X(x)=P[X\le x]

其有如下特性:

  1. FXF_X 单调上升
  2. FXF_X right continuous,因为其单调,所以有 left limit
  3. limxFX(x)=1,limxFX(x)=0\lim_{x\rightarrow\infty}F_X(x)=1,\lim_{x\rightarrow-\infty}F_X(x)=0

probability measure μ\mu 和 distribution function FF 之间有一一对应,可以通过如下的方式构造:

  • μF(x)=μ(,x]F\mu\rightarrow F(x)=\mu(-\infty,x] \rightarrow F 是 distribution function
  • Fμ(a,b]=F(b)F(a),a<bF\rightarrow \mu(a,b]=F(b)-F(a),-\infty\le a<b\le \infty

    • 注意这里的证明中,需要 S={(a,b]a<b}\mathcal{S}=\{(a,b]|-\infty\le a<b\le \infty\} 是 semi-algebra,然后证明他是 σ\sigma-additive 的,就可以用测度论的那套方法往上推了。

定义:random variable XXdiscrete 的,当且仅当 BR,B\exist B\in\mathbb{R},B 是可数集,P[XB]=1P[X\in B]=1

定义:distribution function FFdiscrete 的,当且仅当

BR,B={xj,j1},{pj,pj0,j1},jpj=1,F(x)=j,xjxpj\exist B\in\mathbb{R},B=\{x_j,j\ge1\}, \{p_j, p_j\ge0,j\ge1\},\sum_j p_j=1,\\ F(x)=\sum_{j,x_j\le x}p_j

定义:distribution function FFabsolutely continuous,如果

 measurable fucntion f:RR,s.t.a,bR,F(b)F(a)=abf(t)dt\exist \text{ measurable fucntion } f:\mathbb{R}\rightarrow\mathbb{R},\text{s.t.}\\ \forall a,b\in\mathbb{R},F(b)-F(a)=\int_a^b f(t)dt
  • 由测度论的结论,FF differentiable, a.e.,且 F=fF'=f

定义:distribution function FFsingular,当且仅当,

  • FF continuous(因为 FF monotone,所以由测度论的结论,FF differentiable, a.e.)
  • F=0F'=0 a.e.

例子:只在康托集中值有变化的 FF

定理:distribution function FαFd+βFac+(1αβ)Fs,α,β0,α+β1F\Rightarrow \alpha F_d+\beta F_{ac}+(1-\alpha-\beta)F_s,\alpha,\beta\ge0,\alpha+\beta\le1,其中:

  • FdF_d discrete
  • FacF_{ac} absolutely continous
  • FsF_s singular

证明见测度论 lecture 31。

定义(Ω,F,P)(\Omega,\mathcal{F}, P),R.V. XX 满足 ΩXdP<\int_\Omega |X|dP<\inftyexpectationE[X]=ΩXdPE[X]=\int_\Omega XdP

练习E[X]=Rxμx(dx)E[X]=\int_\mathbb{R}x\mu_x(dx)

PROP:R.V. X0,n1P[xn]E[X]1+n1P[xn]X\ge0, \sum_{n\ge1}P[x\ge n]\le E[X]\le 1+\sum_{n\ge1}P[x\ge n]

  • n1jnP[X[j,j+1)]=j1P[X[j,j+1)]j=j1jχ[j,j+1)(x)dPj1Xχ[j,j+1)(x)dP=Xχ[1,)(x)dPXdP\begin{aligned} \sum_{n\ge1}\sum_{j\ge n}P[X\in[j,j+1)]&=\sum_{j\ge1}P[X\in[j,j+1)]j\\ &=\sum_{j\ge1}\int j\chi_{[j,j+1)}(x)dP\le \sum_{j\ge1}\int X\chi_{[j,j+1)}(x)dP\\ &=\int X\chi_{[1,\infty)}(x)dP\le \int XdP \end{aligned}

    反过来则是在从 jjXX 的那步改成 X+1X+1 就好了。

推论:R.V. X,P[X{0,1,2,...}]=1E[X]=n1P[Xn]X,P[X\in\{0,1,2,...\}]=1\Rightarrow E[X]=\sum_{n\ge1}P[X\ge n]

断言(Ω,F,P)(\Omega, \mathcal{F}, P), R.V. XX, f:RRf:\mathbb{R}\rightarrow \mathbb{R} measurable(B\mathcal{B} 中的集合的 inverse image 还是在 B\mathcal{B} 中),那么 f(X)=fX:ΩRf(X)=f\circ X:\Omega\rightarrow \mathbb{R} 是一个新的 R.V.。

定理:根据上述的条件,会有 Ωf(X)dP=Rf(x)μx(dx)\int_\Omega f(X)dP=\int_\mathbb{R}f(x)\mu_x(dx)。为了让这两个东西有定义,还需要补充以下 2 个定义中的一个:

  1. f0f\ge0 或者
  2. Ωf(X)dP<\int_\Omega |f(X)|dP<\inftyRf(x)μx(dx)<\int_\mathbb{R}|f(x)|\mu_x(dx)<\infty
  3. 证明略,都是测度论方面的知识。

定理Jensen's inequality):φ:RR\varphi:\mathbb{R}\rightarrow\mathbb{R} 是 convex function,即 φ(θx+(1θ)y)θφ(x)+(1θ)φ(y),θ[0,1]\varphi(\theta x+(1-\theta)y)\le \theta\varphi(x)+(1-\theta)\varphi(y),\forall\theta\in[0,1]。有,R.V. XX,满足 E[X]<,E[φ(X)]<E[|X|]<\infty,E[|\varphi(X)|]<\infty,那么:

φ(E[X])E[φ(X)]\varphi(E[X])\le E[\varphi(X)]
  • 首先观察到凸函数有这么个特点:x0R,l(x)=ax+b\forall x_0\in\mathbb{R},\exist l(x)=ax+b,满足 l(x0)=φ(x0)l(x_0)=\varphi(x_0),并且 l(x)φ(x),xRl(x)\le \varphi(x),\forall x\in\mathbb{R}。(这件事在这里就不证了。)

    因为 l(x0)=φ(x0)l(x_0)=\varphi(x_0) 所以我们可以把 l(x)l(x) 写作 l(x)=φ(x0)+c(xx0)φ(x)l(x)=\varphi(x_0)+c(x-x_0)\le \varphi(x)。所以如果我们取 x0=E[X]x_0=E[X],就会有:

    φ(E[X])+c(xE[X])φ(x)\varphi(E[X])+c(x-E[X])\le \varphi(x)

    因为对于所有 xRx\in\mathbb{R} 都成立,所以可以把上面的 xx 替换成 R.V. XX,即在 Ω\Omega 上,有:

    φ(E[X])+c(XE[X])φ(X)\varphi(E[X])+c(X-E[X])\le \varphi(X)

    然后两边求积分:

    Ωφ(E[X])dP+Ωc(XE[X])dPΩφ(X)dP\int_\Omega \varphi(E[X])dP+\int_\Omega c(X-E[X])dP\le \int_\Omega \varphi(X)dP

    从而得到了:

    φ(E[X])E[φ(X)]\varphi(E[X])\le E[\varphi(X)]

定理Chebyshev's inequality):X0,f:R+R+X\ge0,f:\mathbb{R}_+\rightarrow\mathbb{R}_+ 单调上升,那么只要 f(a)>0f(a)>0,就有:

P[Xa]1f(a)E[f(x)]P[X\ge a]\le\frac{1}{f(a)}E[f(x)]
  • 因为单调性,所以:

    P[Xa]P[f(X)f(a)]=Ωχ[f(X)f(a)]dPP[X\ge a]\le P[f(X)\ge f(a)]=\int_\Omega\chi_{[f(X)\ge f(a)]}dP

    另一方面当 f(X)f(a)f(X)\ge f(a) 时,显然有 1f(x)f(a)1\le \frac{f(x)}{f(a)},那么:

    P[Xa]Ωχ[f(X)f(a)]dPΩf(x)f(a)χ[f(X)f(a)]dPΩf(x)f(a)dP=1f(a)E[f(x)]\begin{aligned} P[X\ge a]&\le\int_\Omega\chi_{[f(X)\ge f(a)]}dP\le\int_\Omega\frac{f(x)}{f(a)}\chi_{[f(X)\ge f(a)]}dP\\ &\le\int_\Omega\frac{f(x)}{f(a)}dP=\frac{1}{f(a)}E[f(x)] \end{aligned}
  • Chebyshev's inequality 可以用来把概率转为期望。

Lecture 2 Independence

定义AFA\in\mathcal{F},我们称 AAevent

定义:event A1,A2,...,AnA_1,A_2,...,A_n,他们被称为相互 independent,如果

{n1,n2,...np}{1,...,N},jknjnk,P[k=1pAnk]=k=1pP[Ank]\forall\{n_1,n_2,...n_p\}\subseteq\{1,...,N\}, j\ne k\Rightarrow n_j\ne n_k,\\P[\cap_{k=1}^p A_{n_k}]=\prod_{k=1}^p P[A_{n_k}]

定义:我们称 R.V X1,...,XnX_1,...,X_n 相互 independent,如果:

{B1,...,Bn}B,P[j=1NXjBj]=j=1NP[XjBj]\forall \{B_1,...,B_n\}\in\mathcal{B},\\ P[\cap_{j=1}^N X_j\in B_j]=\prod_{j=1}^N P[X_j\in B_j]

定义{Xα,αI}\{X_\alpha,\alpha\in I\},即任意 R.V. family,他们相互 independent,如果任取有限的指标 {α1,α1,...,αN},kjαkαj\{\alpha_1,\alpha_1,...,\alpha_N\},k\ne j\Rightarrow \alpha_k\ne\alpha_j,都有 {Xα1,Xα2,...,XαN}\{X_{\alpha_1},X_{\alpha_2},...,X_{\alpha_N}\} 相互独立。

Remark:如果 {X1,...,Xn}\{X_1,...,X_n\} 相互独立,那么这个集合的子集里面的 R.V. 也相互独立。

  • 显然可以取去掉的 R.V. 的值域为 R\mathbb{R}

定义:取 (RN,BN)(\mathbb{R}^N,\mathcal{B}^N)BN\mathcal{B}^N 是包含所有 RN\mathbb{R}^N 中开集的最小的 σ\sigma-algebra),那么 X:ΩRNX:\Omega\rightarrow\mathbb{R}^Nrandom vector(R. vector),如果 ABN,X1(A)F\forall A\in\mathcal{B}^N,X^{-1}(A)\in\mathcal{F}

定义distribution function of random vector XX,是 FX:RN[0,1]F_X:\mathbb{R}^N\rightarrow[0,1] 满足:

FX(x)=P[X1x1,...,XNxN]F_X(x)=P[X_1\le x_1,...,X_N\le x_N]

定义probability distribution measure of random vector XX,是 (RN,BN)(\mathbb{R}^N,\mathcal{B}^N) 上定义的 μX\mu_X,满足:

μX(A)=P[X1(A)]=P[XA]\mu_X(A)=P[X^{-1}(A)]=P[X\in A]

引理:R. vector X=(X1,X2,...,XN)X=(X_1,X_2,...,X_N),那么 {X1,...,XN}\{X_1,...,X_N\} 相互独立,当且仅当

FX(x1,...,xn)=j=1NFXj(xj)F_X(x_1,...,x_n)=\prod_{j=1}^NF_{X_j}(x_j)
  • 反向证明独立有点麻烦,需要从 (,xj](-\infty,x_j] 推到任意 BjBB_j\in\mathcal{B},是测度论的常见证明流程。
  • 另外一种定义的方法是说:

    μX(B1×...×BN)=j=1NμXj(Bj)\mu_X(B_1\times ...\times B_N)=\prod_{j=1}^N\mu_{X_j}(B_j)

定理:independent R.V. X1,...,XNX_1,...,X_N,有 f1,...fNf_1,...f_N 均是 RR\mathbb{R}\rightarrow\mathbb{R} 且 measurable,那么 f1(X1),...,fN(XN)f_1(X_1),...,f_N(X_N) 相互独立。

  • 证明:

    P[j=1N{f(Xj)Bj}]=P[j=1N{XjfJ1(Bj)}]=j=1NP[XjfJ1(Bj)]=j=1NP[fj(Xj)Bj]\begin{aligned} P[\cap_{j=1}^N\{f(X_j)\in B_j\}]&=P[\cap_{j=1}^N\{X_j\in f_J^{-1}(B_j)\}]\\ &=\prod_{j=1}^N P[X_j\in f_J^{-1}(B_j)]=\prod_{j=1}^N P[f_j(X_j)\in B_j] \end{aligned}

定理:independent R.V. X1,...,XNX_1,...,X_N,其中取 Xn1,...Xnp,1n1<...<np=NX_{n_1},...X_{n_p},1\le n_1<...<n_p= N,并且有 measurable function,f1:Rn1R,f2:Rn2n1R,...,fp:Rnpnp1Rf_1:\mathbb{R}^{n_1}\rightarrow\mathbb{R},f_2:\mathbb{R}^{n_2-n_1}\rightarrow\mathbb{R},...,f_p:\mathbb{R}^{n_p-n_{p-1}}\rightarrow\mathbb{R},那么 f1(X1,...,Xn1),f2(Xn1+1,...,n2),...,fp(Xnp1+1,...,np)f_1(X_1,...,X_{n_1}),f_2(X_{n_1+1,...,n_2}),...,f_p(X_{n_{p-1}+1,...,n_p}) 相互独立。

定理:independent R.V. X,YX,Y 满足 X0,Y0X\ge0,Y\ge0E[X]<,E[Y]<E[|X|]<\infty,E[|Y|]<\infty,那么有:

E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]
  • 首先假设 X,YX,Y 是 simple function (simple random variable),即

    X=j=1NxjχEj,xj0Y=k=1MykχFk,yk0X=\sum_{j=1}^Nx_j\chi_{E_j},x_j\ge0\\ Y=\sum_{k=1}^My_k\chi_{F_k},y_k\ge0

    那么:

    E[XY]=j=1Nk=1MxjykE[χEjχFk]=j=1Nk=1MxjykP[EjFk]=j=1Nk=1MxjykP[X=xj,Y=yk]=j=1Nk=1MxjykP[X=xj]P[Y=yk]=j=1Nk=1MxjykP[Ej]P[Ek]=E[X]E[Y]\begin{aligned} E[XY]&=\sum_{j=1}^N\sum_{k=1}^Mx_jy_kE[\chi_{E_j}\chi_{F_k}]\\ &=\sum_{j=1}^N\sum_{k=1}^Mx_jy_kP[E_j\cap F_k]=\sum_{j=1}^N\sum_{k=1}^Mx_jy_kP[X=x_j,Y=y_k]\\ &=\sum_{j=1}^N\sum_{k=1}^Mx_jy_kP[X=x_j]P[Y=y_k]=\sum_{j=1}^N\sum_{k=1}^Mx_jy_kP[E_j]P[E_k]\\ &=E[X]E[Y] \end{aligned}

    其次我们扩展到任意 X0,Y0X\ge0,Y\ge0。由于在测度论中,有 simple R.V. XnX,YnYX_n\uparrow X,Y_n\uparrow Y,同时会有 XnYnXYX_nY_n\uparrow XY,由 monotone convergence theorem 有:

    E[XY]=limnE[XnYn]=limnE[Xn]E[Yn]=E[X]E[Y]E[XY]=\lim_nE[X_nY_n]=\lim_nE[X_n]E[Y_n]=E[X]E[Y]

    最后考虑 E[X]<,E[Y]<E[|X|]<\infty,E[|Y|]<\infty 的情况。自然是把 X=X+X,Y=Y+YX=X^+-X^-,Y=Y^+-Y^-,所以有:

    E[XY]=E[(X+X)(Y+Y)]=E[X]E[Y]E[XY]=E[(X^+-X^-)(Y^+-Y^-)]=E[X]E[Y]

    这里有一个小细节,就是 X+=f(X)X^+=f(X) 所以可以和 Y+Y^+ 以及 YY^-相互独立。

  • 我们给另外一个证明的方法。这里我们要用这样一个证明留习题的结论:

    • 对于 X:ΩRN,f:RNR,E[f(X)]<X:\Omega\rightarrow\mathbb{R}^N,f:\mathbb{R}^N\rightarrow\mathbb{R},E[|f(X)|]<\infty,有
    Ωf(X)dP=RNf(x)μX(dx)\int_\Omega f(X)dP=\int_{\mathbb{R}^N}f(x)\mu_X(dx)

    基于这个结论,因为独立性,有 μ(X,Y)(dx,dy)=μX(dx)μY(dy)\mu_{(X,Y)}(dx,dy)=\mu_X(dx)\mu_Y(dy),然后我们取 f(x,y)=xyf(x,y)=xy,也就有:

    E[XY]=E[f(X,Y)]=R2f(x,y)μ(X,Y)(dx,dy)=R2xyμX(dx)μY(dy)=RxμX(dx)RyμY(dy)=E[X]E[Y]\begin{aligned} E[XY]=E[f(X,Y)]&=\int_{\mathbb{R}^2} f(x,y)\mu_{(X,Y)}(dx,dy)\\ &=\int_{\mathbb{R}^2} xy\mu_{X}(dx)\mu_{Y}(dy)\\ &=\int_{\mathbb{R}}x\mu_{X}(dx) \int_{\mathbb{R}}y\mu_{Y}(dy)=E[X]E[Y] \end{aligned}

    最后一行用了 fubini theorem。

    • 注意,实际上的证明要先证非负函数,从而推出 E[XY]<E[|XY|]<\infty

最后我们要研究一下 infinity family of independent R.V.。

Lecture 4 Convergence of random variables

定义almost surely convergenceXnXX_n\rightarrow X a.s. (a.e.) 如果 AF,P[A]=1,ωA,Xn(w)w\exist A\in\mathcal{F},P[A]=1,\forall \omega\in A,X_n(w)\rightarrow w

我们如何把这个定义转换成概率论相关的定义呢。

考虑到 Xn(ω)X(ω)X_n(\omega)\rightarrow X(\omega),那么 ε>0,n1,mn,X(ω)Xm(ω)ε\forall \varepsilon>0,\exists n\ge1,\forall m\ge n,|X(\omega)-X_m(\omega)|\le \varepsilon。如果把这里的 ε\varepsilon 换成 1/k1/k,也就有了:

k1,n1,mn,X(ω)Xm(ω)1k\forall k\ge 1,\exists n\ge1,\forall m\ge n,|X(\omega)-X_m(\omega)|\le \frac{1}{k}

那么也就是说,这一个 ww 满足:

ωk1n1mn{wΩXm(ω)X(ω)1k}\omega\in \cap_{k\ge1}\cup_{n\ge 1}\cap_{m\ge n}\{w'\in\Omega||X_m(\omega')-X(\omega')|\le\frac{1}{k}\}

因为 Xn,XX_n,X 都是 R.V.,所以这里的任何一个 {wΩXm(ω)X(ω)<1k}\{w'\in\Omega||X_m(\omega')-X(\omega')|<\frac{1}{k}\} 都属于 σ\sigma-algebra,所以这个 ω\omega 的大集合是属于 F\mathcal{F} 的。这意味着:

XnX a.e.P[k1n1mn{wΩXm(ω)X(ω)1k}]=1k1,P[n1mn{XmX1k}]=1ε>0,P[n1mn{XmXε}]=1\begin{aligned} X_n\rightarrow X\text{ a.e.}&\Longleftrightarrow P[\cap_{k\ge1}\cup_{n\ge 1}\cap_{m\ge n}\{w'\in\Omega||X_m(\omega')-X(\omega')|\le\frac{1}{k}\}]=1\\ &\Longleftrightarrow \forall k\ge1,P[\cup_{n\ge 1}\cap_{m\ge n}\{|X_m-X|\le\frac{1}{k}\}]=1\\ &\Longleftrightarrow \forall \varepsilon>0,P[\cup_{n\ge 1}\cap_{m\ge n}\{|X_m-X|\le\varepsilon\}]=1 \end{aligned}

进一步,如果我们定义 Bn=mn{XmX<ε}B_n=\cap_{m\ge n}\{|X_m-X|<\varepsilon\},会发现 BnB_n\uparrow,而且肯定有 Bnj1BjB_n\uparrow\cup_{j\ge1}B_j,也就是:

XnX a.e.ε>0,P[n1mn{XmXε}]=1ε>0,limnP[mn{XmXε}]=1\begin{aligned} X_n\rightarrow X\text{ a.e.}&\Longleftrightarrow \forall \varepsilon>0,P[\cup_{n\ge 1}\cap_{m\ge n}\{|X_m-X|\le\varepsilon\}]=1\\ &\Longleftrightarrow \forall \varepsilon>0,\lim_{n\rightarrow\infty}P[\cap_{m\ge n}\{|X_m-X|\le\varepsilon\}]=1 \end{aligned}

(最后的这个极限要用 monotone convergence theorem)。

推论

Xna.e.Xε>0,limnP[mn{XmXε}]=1ε>0,limnP[mn{XmX>ε}]=0\begin{aligned} X_n\xrightarrow{\text{a.e.}}X&\Longleftrightarrow \forall \varepsilon>0,\lim_{n\rightarrow\infty}P[\cap_{m\ge n}\{|X_m-X|\le\varepsilon\}]=1\\ &\Longleftrightarrow \forall \varepsilon>0,\lim_{n\rightarrow\infty}P[\cup_{m\ge n}\{|X_m-X|>\varepsilon\}]=0 \end{aligned}

定义convergence in probabilityXnPXX_n\xrightarrow{P}Xε>0,P[XnX>ε]0\forall \varepsilon>0,P[|X_n-X|>\varepsilon]\rightarrow 0

引理Xna.e.XXnPXX_n\xrightarrow{\text{a.e.}}X\Longrightarrow X_n\xrightarrow{P}X

引理XnPXXnk,Xnka.e.XX_n\xrightarrow{P}X\Longrightarrow \exist X_{n_k},X_{n_k}\xrightarrow{\text{a.e.}}X

  • 证明方式差不多就是造一个 12nε\frac{1}{2^n}\varepsilon 的级数。

定义convergence in LpL_pXnLpX,0<p<X_n\xrightarrow{L_p}X,0<p<\inftyε>0,limnE[XnXp]0\forall \varepsilon>0,\lim_{n\rightarrow\infty}E[|X_n-X|^p]\rightarrow 0

引理XnLpXXnPXX_n\xrightarrow{L_p}X\Longrightarrow X_n\xrightarrow{P}X

  • 使用 Chebyshev inequality,P[XnX>ε]1εpE[XnXp]P[|X_n-X|>\varepsilon]\le \frac{1}{\varepsilon^p}E[|X_n-X|^p]

定理XnPX,XnY,E[Yp]<XnLpXX_n\xrightarrow{P}X,|X_n|\le Y,E[Y^p]<\infty\Longrightarrow X_n\xrightarrow{L_p}X

  • 首先先证明 E[Xp]<E[|X|^p]<\infty

    因为 XnPXX_n\xrightarrow{P}X 所以我们可以取子序列满足 Xnka.e.XX_{n_k}\xrightarrow{\text{a.e.}}X,这意味着 XY|X|\le Y a.e.。所以 E[X]E[Yp]E[|X|]\le E[Y^p](最后这个不等式加了积分仍然成立不太确定用测度论应该咋证)。

    然后考虑:

    E[XnXp]E[XnXpχXn=Xε]+E[XnXpχXn=X<ε]E[XnXpχXn=Xε]+εp\begin{aligned} E[|X_n-X|^p]&\le E[|X_n-X|^p\chi_{|X_n=X|\ge\varepsilon}]+E[|X_n-X|^p\chi_{|X_n=X|<\varepsilon}]\\ &\le E[|X_n-X|^p\chi_{|X_n=X|\ge\varepsilon}]+\varepsilon^p \end{aligned}

    对于第一项,因为 XnXXn+X2Y|X_n-X|\le |X_n| + |X|\le 2|Y| a.e.。所以有:

    E[XnXp]E[2pYpχXn=Xε]+εpE[|X_n-X|^p]\le E[2^p Y^p\chi_{|X_n=X|\ge\varepsilon}]+\varepsilon^p

    因为 XnPXX_n\xrightarrow{P}X,所以对于 An={XnXε}A_n=\{|X_n-X|\ge\varepsilon\},有 P[An]0P[A_n]\rightarrow 0,而又由于 E[Yp]<E[Y^p]<\infty,会有 E[YpχAn]0E[Y^p\chi_{A_n}]\rightarrow 0(这里是用的测度论上的一个结论)。也就是:

    limnE[XnXp]εp\lim_{n\rightarrow \infty}E[|X_n-X|^p]\le \varepsilon^p

    因为 ε\varepsilon 是任取的,证毕。

例子:(为了方便,这些例子都取 取 Ω=[0,1),B,P=λ\Omega=[0,1),\mathcal{B},P=\lambda(lebesgue measure))

  • PLpP\ne L^pXn=n1/pχ[0,1/n]X_n=n^{1/p}\chi_{[0,1/n]} 满足 XnP0X_n\xrightarrow{P}0 而不满足 XnLp0X_n\xrightarrow{L_p}0
  • Lpa.s.L^p\ne \text{a.s.}:这个构造挺有意思的。其实关键就是,可以构造每个点的值都有是 0 或者是 1 的,但是他们的总积分可以变小。

Lecture 6 Weak convergence: Helly's selection theorem and tightness

这一讲考虑的是 (R,B)(\mathbb{R},\mathcal{B}) 下,如何定义 probability measure 的收敛 μnμ\mu_n\rightarrow \mu

我们最初可能会想这么定义:

supABμn(A)μ(A)<ε\sup_{A\in\mathcal{B}}|\mu_n(A)-\mu(A)|<\varepsilon

但是这个定义过强了,没法用。因为比如说 μ=δx(A),ν=δy(A)\mu=\delta_x(A),\nu=\delta_y(A),其中:

δx(A)={1xA0xA\delta_x(A)=\begin{cases} 1 & x\in A \\ 0 & x\notin A \end{cases}

那么 supAμn(A)μ(A)=1,xy\sup_{A}|\mu_n(A)-\mu(A)|=1,x\ne yxx 逐渐接近 yy 也没用。所以有了如下定义。

定义weak convergence (distribution convergence) μndweakμ\mu_n\xrightarrow[d]{weak} \mu(a,b],μn((a,b])μ((a,b])\forall (a,b],\mu_n((a,b])\rightarrow \mu((a,b]),但是这里要限制 μ({a})=μ({b})=0\mu(\{a\})=\mu(\{b\})=0

如果我们用 FnF_nFF 表示的话,有 Fn(x)F(x),xRF_n(x)\rightarrow F(x),\forall x\in\mathbb{R},且 xxFF 上的 continuous point。

因为 FF 右连续,所以 xxFF 上的 continuous point 的意思是 F(x)=limyxF(y)=F(x)F(x^-)=\lim_{y\uparrow x}F(y)=F(x)

定义:如果 Fn(x)F(x),xRF_n(x)\rightarrow F(x),\forall x\in\mathbb{R},且 xxFF 上的 continuous point,我们称 Fn(x)F(x)F_n(x)\rightarrow F(x) in distribution。

  • 这个定义和上面的那个定义等价。

我们进一步把这个定义扩展到 R.V.

定义XnlawdistXX_n\xrightarrow[law]{dist}X,如果 Fn(x)dF(x)F_n(x)\xrightarrow{d} F(x)

  • 注意,这个定义不需要 XnX_nXX 可以在不同(Ωn,Fn,Pn)(\Omega_n,\mathcal{F}_n,P_n) 上定义的,这点和上一讲的 3 种收敛不同。

定义N\mathcal{N} 为 distribution function FF 的集合,并定义 MN\mathcal{M}\supseteq \mathcal{N},其中函数 GG 满足:

  1. GG 单调上升
  2. GG right continuous,因为其单调,所以有 left limit
  3. limxG(x)1,limxG(x)0\lim_{x\rightarrow\infty}G(x)\le1,\lim_{x\rightarrow-\infty}G(x)\ge 0
  4. 注意,就是把 distribution function 的第三条改了。

我们可以进一步扩展收敛的定义。

定义GndGx,G(x)=G(x),limnGn(x)=G(x)G_n\xrightarrow{d}G\Longleftrightarrow \forall x,G(x)=G(x^-),\lim_{n\rightarrow\infty} G_n(x)=G(x)

定理

(Fn,n1),FnNNM,(nk,k1), s.t. FnkdG(F_n,n\ge 1),F_n\in\mathcal{N}\Longrightarrow\exists N\in\mathcal{M},(n_k,k\ge1),\text{ s.t. }F_{n_k}\xrightarrow{d}G

Lecture 7 Weak convergence: Helly-Bray's theorem

定理(Helly-Bray):

μnwμfCb(R),fdμnfdμ\mu_n\xrightarrow{w}\mu\Longleftrightarrow \forall f\in C_b(\mathbb{R}),\int fd\mu_n\rightarrow \int f d\mu

其中 Cb(R)C_b(\mathbb{R}) 是 bounded continue function on R\mathbb{R}

引理XnPXXndXX_n\xrightarrow{P}X\Longrightarrow X_n\xrightarrow{d}X

引理XnPXE[f(Xn)]E[f(x)],fCb(R)X_n\xrightarrow{P}X\Longrightarrow E[f(X_n)]\rightarrow E[f(x)],\forall f\in C_b(\mathbb{R})

  • 引理XndC,CRXnPCX_n\xrightarrow{d} C,C\in\mathbb{R}\Longrightarrow X_n\xrightarrow{P} C

Lecture 8 Characteristic functions

tRt\in\mathbb{R},定义 Ft:RCF_t:\mathbb{R}\rightarrow\mathbb{C}Ft(x)=eitxF_t(x)=e^{itx}

定义characteristic function φX(t)=E[Ft(X)]=E[eitX]\varphi_X(t)=E[F_t(X)]=E[e^{itX}]

因为 FtF_t 是 continuous function,所以有 XndXE[Ft(Xn)]E[Ft(X)]X_n\xrightarrow{d} X\Rightarrow E[F_t(X_n)]\rightarrow E[F_t(X)],所以有 φXn(t)φX(t),tR\varphi_{X_n}(t)\rightarrow \varphi_X(t),\forall t\in\mathbb{R}

引理

  1. φX(0)=1\varphi_X(0)=1
  2. φX(t)=eitXdP1|\varphi_X(t)|=|\int e^{itX}dP|\le 1