看的是 IMPA 的 Probability Theory 课,教授是 Claudio Landim。
https://www.youtube.com/playlist?list=PLo4jXE-LdDTS5BYqea-LcHdtjKwVcepP7
Lecture 1 Introduction
setup:我们总会有三元组 (Ω,F,P),其中:
定义:X:Ω→R 是 random variable(R.V.),其中 R 我们会和 (R,B) 相结合(B 是 Borel σ-algebra,也就是包含 R 中所有开集的最小的 σ-algebra),如果 X 是 measurable function,即 ∀A∈B,X−1(A)∈F
定义:对于 random variable X,probability distribution measure μX(在 (R,B) 上定义的),满足:
μX(A)=P[X−1(A)]=P[{ω∈Ω∣X(ω)∈A}]
记作 μX(A)=P[X∈A]。
- 可以根据上面的 probability measure 的定义,证明这样定义的 μX 也是 probability measure。
定义:对于 random variable X,distribution function FX:R→[0,1],为:
FX(x)=P[X≤x]
其有如下特性:
- FX 单调上升
- FX right continuous,因为其单调,所以有 left limit
- limx→∞FX(x)=1,limx→−∞FX(x)=0
probability measure μ 和 distribution function F 之间有一一对应,可以通过如下的方式构造:
- μ→F(x)=μ(−∞,x]→F 是 distribution function
-
F→μ(a,b]=F(b)−F(a),−∞≤a<b≤∞
- 注意这里的证明中,需要 S={(a,b]∣−∞≤a<b≤∞} 是 semi-algebra,然后证明他是 σ-additive 的,就可以用测度论的那套方法往上推了。
定义:random variable X 是 discrete 的,当且仅当 ∃B∈R,B 是可数集,P[X∈B]=1。
定义:distribution function F 是 discrete 的,当且仅当
∃B∈R,B={xj,j≥1},{pj,pj≥0,j≥1},j∑pj=1,F(x)=j,xj≤x∑pj
定义:distribution function F 是 absolutely continuous,如果
∃ measurable fucntion f:R→R,s.t.∀a,b∈R,F(b)−F(a)=∫abf(t)dt
- 由测度论的结论,F differentiable, a.e.,且 F′=f。
定义:distribution function F 是 singular,当且仅当,
- F continuous(因为 F monotone,所以由测度论的结论,F differentiable, a.e.)
- F′=0 a.e.
例子:只在康托集中值有变化的 F
定理:distribution function F⇒αFd+βFac+(1−α−β)Fs,α,β≥0,α+β≤1,其中:
- Fd discrete
- Fac absolutely continous
- Fs singular
证明见测度论 lecture 31。
定义:(Ω,F,P),R.V. X 满足 ∫Ω∣X∣dP<∞,expectation 为 E[X]=∫ΩXdP
练习:E[X]=∫Rxμx(dx)
PROP:R.V. X≥0,∑n≥1P[x≥n]≤E[X]≤1+∑n≥1P[x≥n]
推论:R.V. X,P[X∈{0,1,2,...}]=1⇒E[X]=∑n≥1P[X≥n]。
断言:(Ω,F,P), R.V. X, f:R→R measurable(B 中的集合的 inverse image 还是在 B 中),那么 f(X)=f∘X:Ω→R 是一个新的 R.V.。
定理:根据上述的条件,会有 ∫Ωf(X)dP=∫Rf(x)μx(dx)。为了让这两个东西有定义,还需要补充以下 2 个定义中的一个:
- f≥0 或者
- ∫Ω∣f(X)∣dP<∞ 且 ∫R∣f(x)∣μx(dx)<∞
- 证明略,都是测度论方面的知识。
定理(Jensen's inequality):φ:R→R 是 convex function,即 φ(θx+(1−θ)y)≤θφ(x)+(1−θ)φ(y),∀θ∈[0,1]。有,R.V. X,满足 E[∣X∣]<∞,E[∣φ(X)∣]<∞,那么:
φ(E[X])≤E[φ(X)]
-
首先观察到凸函数有这么个特点:∀x0∈R,∃l(x)=ax+b,满足 l(x0)=φ(x0),并且 l(x)≤φ(x),∀x∈R。(这件事在这里就不证了。)
因为 l(x0)=φ(x0) 所以我们可以把 l(x) 写作 l(x)=φ(x0)+c(x−x0)≤φ(x)。所以如果我们取 x0=E[X],就会有:
φ(E[X])+c(x−E[X])≤φ(x)
因为对于所有 x∈R 都成立,所以可以把上面的 x 替换成 R.V. X,即在 Ω 上,有:
φ(E[X])+c(X−E[X])≤φ(X)
然后两边求积分:
∫Ωφ(E[X])dP+∫Ωc(X−E[X])dP≤∫Ωφ(X)dP
从而得到了:
φ(E[X])≤E[φ(X)]
定理(Chebyshev's inequality):X≥0,f:R+→R+ 单调上升,那么只要 f(a)>0,就有:
P[X≥a]≤f(a)1E[f(x)]
Lecture 2 Independence
定义:A∈F,我们称 A 为 event。
定义:event A1,A2,...,An,他们被称为相互 independent,如果
∀{n1,n2,...np}⊆{1,...,N},j=k⇒nj=nk,P[∩k=1pAnk]=k=1∏pP[Ank]
定义:我们称 R.V X1,...,Xn 相互 independent,如果:
∀{B1,...,Bn}∈B,P[∩j=1NXj∈Bj]=j=1∏NP[Xj∈Bj]
定义:{Xα,α∈I},即任意 R.V. family,他们相互 independent,如果任取有限的指标 {α1,α1,...,αN},k=j⇒αk=αj,都有 {Xα1,Xα2,...,XαN} 相互独立。
Remark:如果 {X1,...,Xn} 相互独立,那么这个集合的子集里面的 R.V. 也相互独立。
- 显然可以取去掉的 R.V. 的值域为 R。
定义:取 (RN,BN)(BN 是包含所有 RN 中开集的最小的 σ-algebra),那么 X:Ω→RN 是 random vector(R. vector),如果 ∀A∈BN,X−1(A)∈F。
定义:distribution function of random vector X,是 FX:RN→[0,1] 满足:
FX(x)=P[X1≤x1,...,XN≤xN]
定义:probability distribution measure of random vector X,是 (RN,BN) 上定义的 μX,满足:
μX(A)=P[X−1(A)]=P[X∈A]
引理:R. vector X=(X1,X2,...,XN),那么 {X1,...,XN} 相互独立,当且仅当:
FX(x1,...,xn)=j=1∏NFXj(xj)
- 反向证明独立有点麻烦,需要从 (−∞,xj] 推到任意 Bj∈B,是测度论的常见证明流程。
-
另外一种定义的方法是说:
μX(B1×...×BN)=j=1∏NμXj(Bj)
定理:independent R.V. X1,...,XN,有 f1,...fN 均是 R→R 且 measurable,那么 f1(X1),...,fN(XN) 相互独立。
-
证明:
P[∩j=1N{f(Xj)∈Bj}]=P[∩j=1N{Xj∈fJ−1(Bj)}]=j=1∏NP[Xj∈fJ−1(Bj)]=j=1∏NP[fj(Xj)∈Bj]
定理:independent R.V. X1,...,XN,其中取 Xn1,...Xnp,1≤n1<...<np=N,并且有 measurable function,f1:Rn1→R,f2:Rn2−n1→R,...,fp:Rnp−np−1→R,那么 f1(X1,...,Xn1),f2(Xn1+1,...,n2),...,fp(Xnp−1+1,...,np) 相互独立。
定理:independent R.V. X,Y 满足 X≥0,Y≥0 或 E[∣X∣]<∞,E[∣Y∣]<∞,那么有:
E[XY]=E[X]E[Y]
-
首先假设 X,Y 是 simple function (simple random variable),即
X=j=1∑NxjχEj,xj≥0Y=k=1∑MykχFk,yk≥0
那么:
E[XY]=j=1∑Nk=1∑MxjykE[χEjχFk]=j=1∑Nk=1∑MxjykP[Ej∩Fk]=j=1∑Nk=1∑MxjykP[X=xj,Y=yk]=j=1∑Nk=1∑MxjykP[X=xj]P[Y=yk]=j=1∑Nk=1∑MxjykP[Ej]P[Ek]=E[X]E[Y]
其次我们扩展到任意 X≥0,Y≥0。由于在测度论中,有 simple R.V. Xn↑X,Yn↑Y,同时会有 XnYn↑XY,由 monotone convergence theorem 有:
E[XY]=nlimE[XnYn]=nlimE[Xn]E[Yn]=E[X]E[Y]
最后考虑 E[∣X∣]<∞,E[∣Y∣]<∞ 的情况。自然是把 X=X+−X−,Y=Y+−Y−,所以有:
E[XY]=E[(X+−X−)(Y+−Y−)]=E[X]E[Y]
这里有一个小细节,就是 X+=f(X) 所以可以和 Y+ 以及 Y−相互独立。
-
我们给另外一个证明的方法。这里我们要用这样一个证明留习题的结论:
- 对于 X:Ω→RN,f:RN→R,E[∣f(X)∣]<∞,有
∫Ωf(X)dP=∫RNf(x)μX(dx)
基于这个结论,因为独立性,有 μ(X,Y)(dx,dy)=μX(dx)μY(dy),然后我们取 f(x,y)=xy,也就有:
E[XY]=E[f(X,Y)]=∫R2f(x,y)μ(X,Y)(dx,dy)=∫R2xyμX(dx)μY(dy)=∫RxμX(dx)∫RyμY(dy)=E[X]E[Y]
最后一行用了 fubini theorem。
- 注意,实际上的证明要先证非负函数,从而推出 E[∣XY∣]<∞。
最后我们要研究一下 infinity family of independent R.V.。
Lecture 4 Convergence of random variables
定义:almost surely convergence 是 Xn→X a.s. (a.e.) 如果 ∃A∈F,P[A]=1,∀ω∈A,Xn(w)→w。
我们如何把这个定义转换成概率论相关的定义呢。
考虑到 Xn(ω)→X(ω),那么 ∀ε>0,∃n≥1,∀m≥n,∣X(ω)−Xm(ω)∣≤ε。如果把这里的 ε 换成 1/k,也就有了:
∀k≥1,∃n≥1,∀m≥n,∣X(ω)−Xm(ω)∣≤k1
那么也就是说,这一个 w 满足:
ω∈∩k≥1∪n≥1∩m≥n{w′∈Ω∣∣Xm(ω′)−X(ω′)∣≤k1}
因为 Xn,X 都是 R.V.,所以这里的任何一个 {w′∈Ω∣∣Xm(ω′)−X(ω′)∣<k1} 都属于 σ-algebra,所以这个 ω 的大集合是属于 F 的。这意味着:
Xn→X a.e.⟺P[∩k≥1∪n≥1∩m≥n{w′∈Ω∣∣Xm(ω′)−X(ω′)∣≤k1}]=1⟺∀k≥1,P[∪n≥1∩m≥n{∣Xm−X∣≤k1}]=1⟺∀ε>0,P[∪n≥1∩m≥n{∣Xm−X∣≤ε}]=1
进一步,如果我们定义 Bn=∩m≥n{∣Xm−X∣<ε},会发现 Bn↑,而且肯定有 Bn↑∪j≥1Bj,也就是:
Xn→X a.e.⟺∀ε>0,P[∪n≥1∩m≥n{∣Xm−X∣≤ε}]=1⟺∀ε>0,n→∞limP[∩m≥n{∣Xm−X∣≤ε}]=1
(最后的这个极限要用 monotone convergence theorem)。
推论:
Xna.e.X⟺∀ε>0,n→∞limP[∩m≥n{∣Xm−X∣≤ε}]=1⟺∀ε>0,n→∞limP[∪m≥n{∣Xm−X∣>ε}]=0
定义:convergence in probability, XnPX 为 ∀ε>0,P[∣Xn−X∣>ε]→0
引理:Xna.e.X⟹XnPX
引理:XnPX⟹∃Xnk,Xnka.e.X
- 证明方式差不多就是造一个 2n1ε 的级数。
定义:convergence in Lp,XnLpX,0<p<∞ 为 ∀ε>0,limn→∞E[∣Xn−X∣p]→0
引理:XnLpX⟹XnPX
- 使用 Chebyshev inequality,P[∣Xn−X∣>ε]≤εp1E[∣Xn−X∣p]
定理:XnPX,∣Xn∣≤Y,E[Yp]<∞⟹XnLpX
-
首先先证明 E[∣X∣p]<∞。
因为 XnPX 所以我们可以取子序列满足 Xnka.e.X,这意味着 ∣X∣≤Y a.e.。所以 E[∣X∣]≤E[Yp](最后这个不等式加了积分仍然成立不太确定用测度论应该咋证)。
然后考虑:
E[∣Xn−X∣p]≤E[∣Xn−X∣pχ∣Xn=X∣≥ε]+E[∣Xn−X∣pχ∣Xn=X∣<ε]≤E[∣Xn−X∣pχ∣Xn=X∣≥ε]+εp
对于第一项,因为 ∣Xn−X∣≤∣Xn∣+∣X∣≤2∣Y∣ a.e.。所以有:
E[∣Xn−X∣p]≤E[2pYpχ∣Xn=X∣≥ε]+εp
因为 XnPX,所以对于 An={∣Xn−X∣≥ε},有 P[An]→0,而又由于 E[Yp]<∞,会有 E[YpχAn]→0(这里是用的测度论上的一个结论)。也就是:
n→∞limE[∣Xn−X∣p]≤εp
因为 ε 是任取的,证毕。
例子:(为了方便,这些例子都取 取 Ω=[0,1),B,P=λ(lebesgue measure))
- P=Lp:Xn=n1/pχ[0,1/n] 满足 XnP0 而不满足 XnLp0。
- Lp=a.s.:这个构造挺有意思的。其实关键就是,可以构造每个点的值都有是 0 或者是 1 的,但是他们的总积分可以变小。
Lecture 6 Weak convergence: Helly's selection theorem and tightness
这一讲考虑的是 (R,B) 下,如何定义 probability measure 的收敛 μn→μ。
我们最初可能会想这么定义:
A∈Bsup∣μn(A)−μ(A)∣<ε
但是这个定义过强了,没法用。因为比如说 μ=δx(A),ν=δy(A),其中:
δx(A)={10x∈Ax∈/A
那么 supA∣μn(A)−μ(A)∣=1,x=y,x 逐渐接近 y 也没用。所以有了如下定义。
定义:weak convergence (distribution convergence) μnweakdμ 为 ∀(a,b],μn((a,b])→μ((a,b]),但是这里要限制 μ({a})=μ({b})=0。
如果我们用 Fn 和 F 表示的话,有 Fn(x)→F(x),∀x∈R,且 x 是 F 上的 continuous point。
因为 F 右连续,所以 x 是 F 上的 continuous point 的意思是 F(x−)=limy↑xF(y)=F(x)。
定义:如果 Fn(x)→F(x),∀x∈R,且 x 是 F 上的 continuous point,我们称 Fn(x)→F(x) in distribution。
我们进一步把这个定义扩展到 R.V.
定义:XndistlawX,如果 Fn(x)dF(x)。
- 注意,这个定义不需要 Xn 和 X 可以在不同的 (Ωn,Fn,Pn) 上定义的,这点和上一讲的 3 种收敛不同。
定义:N 为 distribution function F 的集合,并定义 M⊇N,其中函数 G 满足:
- G 单调上升
- G right continuous,因为其单调,所以有 left limit
- limx→∞G(x)≤1,limx→−∞G(x)≥0
- 注意,就是把 distribution function 的第三条改了。
我们可以进一步扩展收敛的定义。
定义:GndG⟺∀x,G(x)=G(x−),limn→∞Gn(x)=G(x)。
定理:
(Fn,n≥1),Fn∈N⟹∃N∈M,(nk,k≥1), s.t. FnkdG
Lecture 7 Weak convergence: Helly-Bray's theorem
定理(Helly-Bray):
μnwμ⟺∀f∈Cb(R),∫fdμn→∫fdμ
其中 Cb(R) 是 bounded continue function on R。
引理:XnPX⟹XndX
引理:XnPX⟹E[f(Xn)]→E[f(x)],∀f∈Cb(R)
- 引理:XndC,C∈R⟹XnPC
Lecture 8 Characteristic functions
t∈R,定义 Ft:R→C 为 Ft(x)=eitx
定义:characteristic function φX(t)=E[Ft(X)]=E[eitX]
因为 Ft 是 continuous function,所以有 XndX⇒E[Ft(Xn)]→E[Ft(X)],所以有 φXn(t)→φX(t),∀t∈R。
引理:
- φX(0)=1
- ∣φX(t)∣=∣∫eitXdP∣≤1