Performance Difference Lemma
这个引理非常厉害,它相当于是可以用老策略的 adv 来估计新策略的提升量。我们就可以就此得到一些提升的下界。
Vπ(s0)Qπ(s0,a0)=Ea0∼π(⋅∣s0)[r(s0,a0)+γEs′∼P(s0,a0)Vπ(s′)]=r(s0,a0)+γEs′∼P(s0,a0)Vπ(s′)
定义: Phπ(s;s0) 是在 π 下,通过 h 步从 s0 转换到 s 的概率。Phπ(s,a;s0) 是在 π 下,通过 h 步从 s0 转换到 s,然后在 s 选择了 a 动作的概率。也就有:
Phπ(s;s0)=a∑Phπ(s,a;s0)
定义:
ds0π(s,a)=(1−γ)h∑∞γhPhπ(s,a;s0)
引理:Performance Difference Lemma
Vπ(s0)−Vπ′(s0)=1−γ1Es∼ds0π[Ea∼π(⋅∣s)Aπ′(s,a)]
证明:
Vπ(s0)−Vπ′(s0)=Vπ(s0)−Ea0∼π(⋅∣s0)[Qπ′(s0,a0)]+Ea0∼π(⋅∣s0)[Qπ′(s0,a0)]−Vπ′(s0)=Vπ(s0)−Ea0∼π(⋅∣s0)[r(s0,a0)+γEs′∼P(s0,a0)Vπ′(s′)]+Ea0∼π(⋅∣s0)[Qπ′(s0,a0)]−Vπ′(s0)=Ea0∼π(⋅∣s0)[r(s0,a0)+γEs′∼P(s0,a0)Vπ(s′)]−Ea0∼π(⋅∣s0)[r(s0,a0)+γEs′∼P(s0,a0)Vπ′(s′)]+Ea0∼π(⋅∣s0)[Qπ′(s0,a0)]−Vπ′(s0)=γEa0∼π(⋅∣s0)[Es1∼P(s0,a0)[Vπ(s1)−Vπ′(s1)]]+Ea0∼π(⋅∣s0)[Qπ′(s0,a0)]−Vπ′(s0)=γEa0∼π(⋅∣s0)[Es1∼P(s0,a0)[Vπ(s1)−Vπ′(s1)]]+Ea0∼π(⋅∣s0)[Qπ′(s0,a0)−Vπ′(s0)]=γEa0∼π(⋅∣s0)[Es1∼P(s0,a0)[Vπ(s1)−Vπ′(s1)]]+Ea0∼π(⋅∣s0)[Aπ′(s0,a0)]
如果我们设:
Pπ(s1;s0)=a0∑π(a0∣s0)P(s1∣s0,a0)=Ea0∼π(⋅∣s0)P(s1∣s0,a0)
我们也就有了:
Vπ(s0)−Vπ′(s0)=γEs1∼Pπ(⋅∣s0)[Vπ(s1)−Vπ′(s1)]+Ea0∼π(⋅∣s0)[Aπ′(s0,a0)]
替换一下,我们有:
Vπ(s1)−Vπ′(s1)=γEs2∼Pπ(⋅∣s1)[Vπ(s2)−Vπ′(s2)]+Ea1∼π(⋅∣s1)[Aπ′(s1,a1)]
代入就有:
Vπ(s0)−Vπ′(s0)=γEs1∼P1π(⋅∣s0)[γEs2∼P1π(⋅∣s1)[Vπ(s2)−Vπ′(s2)]+Ea1∼π(⋅∣s1)[Aπ′(s1,a1)]]+Ea0∼π(⋅∣s0)[Aπ′(s0,a0)]=γ2Es2∼P2π(⋅∣s0)[Vπ(s2)−Vπ′(s2)]+γEs1∼P1π(⋅∣s0)[Ea1∼π(⋅∣s1)[Aπ′(s1,a1)]]+Ea0∼π(⋅∣s0)[Aπ′(s0,a0)]=γ2Es2∼P2π(⋅∣s0)[Vπ(s2)−Vπ′(s2)]+γEs1,a1∼P1π(⋅,⋅∣s0)[Aπ′(s1,a1)]+Ea0∼π(⋅∣s0)[Aπ′(s0,a0)]=...=h=0∑∞γhEs,a∼Phπ(⋅,⋅;s0)Aπ′(s,a)=1−γ1Es,a∼ds0πAπ′(s,a)