Author: Eiko

Tags: Probability Theory, Measure Theory, Dominated Convergence, Independence, Random Variables, Sigma Algebras, Conditional Probability, Bayesian Statistics, Kolmogorov Zero One Law, Distribution, Convergence of Random Variables, Weak Convergence, Almost Sure Convergence, Convergence In Probability, Poisson Limit Theorem

这是我2022年讲概率论课程所编写和使用的讲义。其中很多内容和例子都是我自己编写的。

基础知识

本章的目的是从最基础的集合操作和极限的复习开始,介绍拓扑等基础概念。然后我们将学习一个迷你版本的测度与积分理论,这将不仅是概率论的基石,也对分析学的学习乃至于对逻辑与关系的理解大有帮助。

集合的基本操作

我们不去复述集合的基本概念,而着重复习一下集合的基本操作。以下所有内容都极为浅显,如果你从来没有见过,你应该逐个验证它们。

  1. 集族,指标集

    对于一个集合\(X\),一个子集族是指\(X\)的一些子集构成的集合或序列。通常我们用一个指标集\(I\)来编号这些子集,即把它们写成\(\{A_i|i\in I\}\)\((A_i)_{i\in I}\).

  2. 集合的交 对于一个集合的某个子集族\((A_i)_{i\in I}\),可以定义它们的交 \[\bigcap_{i\in I} A_i=\{x\in X| x\in A_i \forall i\}.\] 这也是\(X\)的一个子集。

  3. 类似的,定义集合的并 \[\bigcup_{i\in I} A_i=\{x\in X| \text{存在一个}i\text{使得}x\in A_i \}.\] 还可以定义集合的无交并,记为\(\coprod A_i\),即把\(A_i\)的所有元素放在一起,即使有相同的元素,在不同的\(A_i\)里面也要视为不同的。

  4. 笛卡尔乘积 给定一列集合\((X_i)_{i\in I}\), 它们的笛卡尔乘积是由所有有序对\(\{(\dots,x_i,\dots):x_i\in X_i\}\)组成的集合。更精确的说,它是所有映射\(f:I\to \coprod X_i\)组成的集合,这里要求\(f(i)\in X_i\).

  5. 分配律

    如果把\(\cup\)看成加法,\(\cap\)看成乘法,那么有如下’乘法分配律’ \[A\cap(B\cup C)=(A\cap B)\cup (A\cap C)\] \[A\cap \left(\bigcup_{i\in I} B_i\right)=\bigcup_{i\in I} (A\cap B_i)\] 事实上,运用下面将要叙述的对偶律,还可以得到反过来的分配律 \[A\cup(B\cap C)=(A\cup B)\cap (A\cup C)\] \[A\cup\left(\bigcap_{i\in I} B_i\right) = \bigcap_{i\in I} (A\cup B_i).\]

  6. 补集

    \(A\subset X\)是某个大空间的子集,其补集记为 \[A^c=\{x\in X: x\not\in A\}.\] 容易看出,取两次补集会回到自身\((A^c)^c=A\)

  7. 对偶律

    补集把交变成并,并变成交 \[\left(\bigcup_{i\in I} A_i\right)^c = \bigcap_{i\in I} A_i^c.\] \[\left(\bigcap_{i\in I} A_i\right)^c = \bigcup_{i\in I} A_i^c.\] 因此,一个对大空间\(X\)中的任意子集成立的集合恒等式中,将并和交全部互换得到的仍然是恒等式。

  8. 定义集合的差为 \[A\backslash B = A-B := A\cap B^c = \{x\in A: x\not\in B\}.\]

  9. 映射与集合操作的关系

    \(f:X\to Y\)是集合之间的映射,那么

    • 对于\(A\subset X\),定义\(A\)的像\(f(A)\)\[f(A):=\{f(a): a\in A\}.\]

    • 对于\(B\subset Y\),定义\(B\)的原像\(f^{-1}(B)\)\[f^{-1}(B):=\{a\in A: f(a)\in B\}.\]

    • 原像\(f^{-1}\)与交,并,补都可交换。

    • \(f\)与并可交换,但一般不与交,补交换。

    • 不过有一个有用的例外情形是\(f(f^{-1}(A)\cap B)=A\cap f(B)\).

  10. 实数集上的特殊运算

    对于\(\mathbb{R}\)的一个子集\(A\),如果\(A\)内所有元素都\(\le s\), 我们就说\(s\)\(A\)的一个上界,这里\(s\)可以取无穷。实数集的一个基本性质就在于,一定存在一个最小的上界(这与实数的完备性有关),称为\(A\)上确界,记为\(\sup A\).它可以看成是最大值\(\max\)的一个推广。

    类似的可以定义下确界\(\inf A\),它们可以由下式联系起来 \[\inf A = -\sup (-A).\] 对一个实数数列\((a_n)\),还可以定义上极限: \[\limsup a_n := \lim_{n\to \infty} \sup_{k\ge n} a_k = \inf_{n} \sup_{k\ge n} a_k\] 和下极限 \[\liminf a_n := \lim_{n\to \infty} \inf_{k\ge n} a_k = \sup_{n} \inf_{k\ge n} a_k.\] 它们之间也有类似的联系 \[\limsup a_n = -\liminf (-a_n).\]

拓扑

连续性与\(\mathbb{R}^n\)中的拓扑

\(\mathbb{R}^n\)中,有一类起着基础作用的集合,它们就是球。定义 \[B(x_0,r):=\{x\in \mathbb{R}^n: |x-x_0|<r\}\] 称之为开球,而 \[\overline{B(x_0,r)}:=\{x\in \mathbb{R}^n: |x-x_0|\le r\}\] 称之为闭球。注意到\(n=1\)时,开球就是开区间,闭球就是闭区间。下面是一个重要概念

定义 1.1. 我们称\(U\subset \mathbb{R}^n\)是一个开集, 如果\(U\)内任何一点\(x\)都有一个非空开球\(B(x,r)\subset U\). 称\(U\)是一个闭集,如果\(U^c\)是一个开集。

注意,集合并不是非开即闭,大部分集合既不是开集也不是闭集。

拓扑最初是用来描述连续变化的现象。回忆一个函数\(f:\mathbb{R}\to \mathbb{R}\)\(x_0\)处连续,是指 \[\lim_{x\to x_0} f(x) = f(x_0)\] 或者,等价的来说,就是指只要\(x\)\(x_0\)足够近,\(f(x)\)就能离\(f(x_0)\)任意近。如果我们取一族越来越小的区间\(U_i\ni f(x_0)\), 无论这个区间多么小,\(f^{-1}(U_i)\)都必须包含一个包含了\(x\)的(开)区间。用开集的理论来说,就是对于任何一个\(f(x_0)\)附近的开集\(U\), \(f^{-1}(U)\)都需要包含一个\(x_0\)附近的开集。如果我们要求函数对所有\(x\)连续,这就要求\(f^{-1}(U)\)中的每一点都需要有一个开邻域被包含在\(f^{-1}(U)\)里面,因此\(f^{-1}(U)\)成为开集。这就给出了如下定义

定义 1.2. 我们称\(f:X \to Y\)是连续函数,如果对任意开集\(U\),\(f^{-1}(U)\)都是开集。

一般集合上的拓扑

上述关于开集的理论可以推广到任何一个集合\(X\),我们称\(X\)的一个子集族\(\mathcal{U}\)构成一个拓扑,是指

  1. \(\mathcal{U}\)中的集合的任意并还在\(\mathcal{U}\)中,即如果取出一族\(U_i\subset \mathcal{U}\),那么 \[\bigcup_{i\in I} U_i\in \mathcal{U}.\]

  2. \(\mathcal{U}\)中的集合的有限交还在\(\mathcal{U}\)中。

  3. \(\varnothing, X\in \mathcal{U}\).

那么,集合\(X\)和其上的拓扑\(\mathcal{U}\)就构成一个拓扑空间 \((X,\mathcal{U})\),这个\(\mathcal{U}\)里面的集合就叫拓扑空间\(X\)的开集。类似的,闭集就是指开集的补集。我们称\(U\)\(x\)开邻域,如果\(U\)包含\(x\)并且是一个开集。今后,当我们谈到’拓扑空间\(X\)’时,总是指\(X\)是一个集合,并且在其上已经指定了一族满足上述定义的’开集’\(\mathcal{U}\).

拓扑空间可以想象成带有’连续性’概念和点与点之间的’远近’概念的一种空间,如果包含两个点的开集越多并且越小,两个点就可以看成越近。

练习 1.1. \(X\)上最大的拓扑是什么?最小的呢?

命题 1.1. \(U\)是开集当且仅当它里面每一点都有一个开邻域被包含在\(U\)内。

Proof. 如果\(U\)是开集,那么它是\(U\)内所有点的开邻域。

如果\(U\)内每一点\(x\)都有开邻域\(U_x\subset U\),那么 \[U=\bigcup_{x\in U} U_x\] 是开集的并,于是是开集。 ◻

上述说法启发我们,验证一个集合是不是开集只需要给出一组基本的开集,比如\(\mathbb{R}^n\)中的开球,就可以了。事实上,我们想要找的这类基本的开集就可以称为拓扑空间\(X\)的一个拓扑基.准确的说,如果\(X\)是一个拓扑空间,\(\mathcal{B}\subset \mathcal{U}\)是一族开集,我们说这族开集是\(X\)的一个拓扑基或者开集基,如果任何开集都是\(\mathcal{B}\)中集合的并。根据上一命题,这等价于说任何开集中的每一点都包含一个\(\mathcal{B}\)中的集合作为邻域。

接下来我们研究这样一个问题,给定\(X\)中的一族集合\(\mathcal{B}\),通过让\(\mathcal{B}\)中集合任意并的方式,我们可以生成集合\(\mathcal{U}\)。那么,这个\(\mathcal{U}\)什么时候构成一个拓扑呢?

定理 1.1 (拓扑基).

  1. \(X\)是一个集合,\(\mathcal{B}\)是一族子集。设\(\mathcal{B}(x)=\{B\in\mathcal{B}: x\in B\}\)是包含了\(x\)的那些子集,那么\(\mathcal{B}\)能作为拓扑基生成一个拓扑,当且仅当对任意\(x\)都有\(\mathcal{B}(x)\neq\varnothing\)且对任意\(B_1,B_2\in \mathcal{B}(x)\),存在\(B_3\in\mathcal{B}(x)\)被包含在\(B_1\cap B_2\)中。这时\(\mathcal{B}\)就是它在\(X\)上生成的拓扑的拓扑基。

  2. 如果\(\mathcal{B}_1\),\(\mathcal{B}_2\)是两个拓扑基,并且\(\mathcal{B}_1(x)\)中每一个元素都包含\(\mathcal{B}_2(x)\)的一个元素,那么它们生成的拓扑满足\(\mathcal{U}_1\subset \mathcal{U}_2\).

    于是它们生成相同的拓扑当且仅当每一个\(\mathcal{B}_1(x)\)的元素都包含一个\(\mathcal{B}_2(x)\)中的元素,并且每一个\(\mathcal{B}_2(x)\)中的元素都包含一个\(\mathcal{B}_1(x)\)中的元素。

Proof.

    • \(\mathcal{B}\)生成的拓扑就是其中元素的所有可能的并 \[\mathcal{U}:=\left\{ \bigcup_{V\in \mathcal{B}'} V : \mathcal{B}'\subset \mathcal{B}\right\}.\] 当然,也包括空并,即空集。它显然满足任意并性质,那么为使它是一个拓扑,需且只需要满足\(X\in \mathcal{U}\)和有限交性质。

    • 前者等价于对任意\(x\in X\),\(\mathcal{B}(x)\neq\varnothing\).

    • 现在假定\(\mathcal{B}(x)\)的有限交性质,为验证拓扑的有限交条件,考虑\(\mathcal{U}\) 中有限个集合 \(U_1, \dots, U_n\) 的交。如果该交为空集,那么这个空集已经在\(\mathcal{U}\)里面了,因此有限交性质在此时是成立的。如果不是空集,对任意\(u\in U_1\cap\dots\cap U_n\),可以找到\(V_{i,u}\in \mathcal{B}(u)\)是一个\(U_i\)中包含\(u\)的集,根据\(\mathcal{B}(u)\)的有限交性质,存在\(V'_u\in \mathcal{B}(u)\)被包含在\(V_{1,u}\cap \dots V_{n,u}\subset U_1\cap \dots \cap U_n\)之中,故 \[U_1\cap \dots \cap U_n = \bigcup_{u\in U_1\cap\dots \cap U_n} V'_u \in \mathcal{U}.\] 反过来,如果\(\mathcal{B}\)中元素的所有可能的并\(\mathcal{U}\)确实生成了一个拓扑,那么\(\mathcal{B}\subset\mathcal{U}\)都是开集。\(\mathcal{B}(x)\)中的开集的有限交都是开集,并且都包含\(x\)所以非空,于是该开集是\(\mathcal{B}\)中元素的并,其中一定有一个包含\(x\)从而在\(\mathcal{B}(x)\)中。

  1. 只需说明\(\mathcal{B}_1\)中每一个元素都是\(\mathcal{B}_2\)中元素的并。事实上,取\(B\in \mathcal{B}_1\),对于所有\(x\in B\),由于\(B\in\mathcal{B}_1(x)\),可以找到一个\(\mathcal{B}_2(x)\)中的元素\(V_x\subset B\),从而 \[B=\bigcup_{x\in B} V_x.\]

 ◻

推论 1.1. \(\mathcal{P}(U)\)是一个关于开集的性质,它保持任意并,即:如果对一族开集\(U_i\), \(\mathcal{P}(U_i)\) 成立,那么\(\mathcal{P}\left(\bigcup_{i\in I} U_i\right)\)成立。对于这样的性质,为验证它对所有开集成立,需且只需验证它对\(Y\)的某一组开集基(拓扑基)成立。

说人话:为验证映射\(f:X\to Y\)是连续的,需且只需要对\(Y\)的一组拓扑基中的元素\(V\)验证\(f^{-1}(V)\)是开集。

\(\mathbb{R},\mathbb{C},[-\infty,\infty]\)上的拓扑

  1. \(\mathbb{R}\)上的拓扑如前所述,是由开区间(一维的开球)生成的,即开集定义为任一点都包含一个在该集合内的开区间的集合,而所有开集都是开区间的并。

    换而言之,所有开区间是\(\mathbb{R}\)的拓扑基。

    练习 1.2. 证明,所有以有理数为端点的开区间也构成\(\mathbb{R}\)的拓扑基,即它定义的拓扑与\(\mathbb{R}\)上的通常拓扑等价。

  2. \(\mathbb{C}\)上的拓扑则按\(\mathbb{R}^2\)即平面上的拓扑给出,即开集定义为任一点都包含一个在该集合内的开球(当然,二维的球是圆)的集合,而所有开集都是开球的并。

    练习 1.3. 事实上,这句话中的所有’开球’也可以改成’开矩形’,所定义的拓扑是一样的。换而言之,证明开球,开矩形,开正方形这三种拓扑基是等价的。

  3. 在扩充实数\([-\infty,\infty]\)上的拓扑,即实数加上正负无穷两个点的空间上的拓扑和\(\mathbb{R}\)上几乎类似,它是在\(\mathbb{R}\)的所有开集之外,添加了 \([-\infty,a)\)\((a,\infty]\) 这两种开区间得到的拓扑。

抽象测度

一个测度空间是指如下一组内容

  1. 一个空间\(X\)

  2. 一个\(X\)的子集族\(\mathcal{F}\),叫做\(\sigma\)-代数,里面的集合叫可测集或者\(\mathcal{F}\)-可测集.

  3. 一个测量子集大小的函数(允许取无穷值) \[\mu:\mathcal{F}\to [0,\infty]\]

它们需要满足如下性质:

  1. (\(\sigma\)-代数) \(\mathcal{F}\)中的元素在可数交,可数并,补集等运算下封闭。(事实上,根据对偶律,只需要验证可数并、可数交中的一个,以及对补集封闭)

  2. (测度的可数可加性) 如果\(A_i\in \mathcal{F}\)是一列(可数)的互不相交子集,那么 \[\mu\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty \mu(A_i).\] 这里两边需要同时为正无穷或者同时有限。

也可以记为\((X,\mathcal{F},\mu)\). 在这个定义下,一个概率空间是指一个满足\(\mu(X)=1\)的测度空间,通常记为\((\Omega,\mathcal{F},\mathbb{P})\). 对于一般的测度,通常有使用不同的记号,常用的记号如\(\nu, \mu, m, \lambda\)等。

集族生成的\(\sigma\)-代数

给定\(X\)的一些子集\(A_i\),我们可以对这些些子集进行可数交,可数并,和取补操作(为什么这保证了\(\varnothing,X\)一定在其中?),来得到一个由\(\{A_i\}\)生成的\(\sigma\)-代数,它是包含所有 \(A_i\) 的最小\(\sigma\)-代数,所以也可以定义为\(X\)的所有包含了 \(\{A_i\}\)\(\sigma\)-代数的交,由于\(2^X\)\(X\)的所有子集构成\(\sigma\)-代数并且该\(\sigma\)-代数包含\(\{A_i\}\),这个交是非空的,于是这保证了由\(\{A_i\}\)生成的最小\(\sigma\)-代数是存在的。

1.1. 由一个子集\(A\)生成的\(\sigma\)-代数就是\(\{\varnothing,A,A^c,X\}\).

1.2. 由有限个子集\(A_i\)生成的\(\sigma\)-代数由以下有限多个元素组成: \[\left\{\bigcup_{S\in \mathcal{T}} S: \mathcal{T}\subset \{S_1\cap S_2\cap \dots \cap S_n: S_i\in \{A_i,A_i^c\}\}\right\}.\] 于是我们知道\(n\)个集合生成的\(\sigma\)-代数最多有\(2^{2^n}\)个元素。

练习 1.4. \(X=\mathbb{Z}\)上,由所有形如\(\{n,n+2\}\)的子集生成的\(\sigma\)-代数是什么?

可测函数的概念

一个从测度空间\(X\)到拓扑空间\(Y\)的函数\(f:X\to Y\)称为\(\mathcal{F}\)-可测的,或者简称可测,如果对任意开集\(V\subset Y\), \(f^{-1}(V)\)都是\(\mathcal{F}\)里的可测集。什么意思呢?回忆Lesbegue的积分理论中我们希望对函数进行值域分解,那么就需要\(f\)\(y\in Y\)这个值附近时,对应的原象\(f^{-1}(V)\)的大小可以用测度精确的测量出来。事实上,对于\(f:X\to \mathbb{R}\)的函数,它可测当且仅当\(f^{-1}([-\infty,a))\)对任意\(a\)是可测的。首先这是一个必要条件,因为\([-\infty,a)\)是开集,而可测函数在可数交并补下封闭,由此可以由这个开集生成\(\mathbb{R}\)上的任何开集。

虽然可测函数的概念如我们所说可以定义在一般的拓扑空间上,但是绝大多数时候我们所用的都是实可测函数\(f:X\to \mathbb{R}\),因此我们将后一句话作为实可测函数的定义,即要求\(\{x\in X: f<a\}\)对任意\(a\)都是可测的。更精确的来说,我们可以用如下一个命题来叙述。

在一般的拓扑空间\(X\)中,由所有开集生成的\(\sigma\)-代数叫做\(X\)Borel \(\sigma\)-代数,其中的元素称作Borel可测集

推论 1.2. 一个可测函数\(f:X\to Y\)复合一个连续函数\(g:Y\to Z\)得到的复合\(g\circ f:X\to Z\)是可测的。这里\(X\)是测度空间,\(Y,Z\)是拓扑空间。

命题 1.2. \(\mathcal{P}(A)\)是一个关于拓扑空间\(X\)的子集的性质,满足\(\mathcal{P}(X)\)成立。如果它保持可数交,可数并和补集运算,那么为了验证\(\mathcal{P}\)对所有Borel可测集成立,需且只需验证\(\mathcal{P}\)对所有开集成立,或者对所有闭集成立,或者对所有开集基成立(但此时你的拓扑基需满足任何\(X\)中的开集能写成可数个开集基的并!)。

Proof. 我们对开集的情形说明,闭集的情形是类似的。 由于开集是Borel可测集,对所有Borel可测集都成立的性质显然需要对开集成立。下面我们来说明对开集成立可以推出对所有Borel可测集成立。事实上,令 \[\mathcal{A}=\{A\subset X: \mathcal{P}(A)\}\] 由于\(\mathcal{P}\)保持可数交并补,并且\(X\in \mathcal{A}\), 这是一个\(\sigma\)代数。由于Borel \(\sigma\)-代数是包含了所有开集的最小\(\sigma\)代数,它一定被\(\mathcal{A}\)包含。 ◻

推论 1.3 (可测性). 首先设\(f:X\to Y\)是一个测度空间到一个拓扑空间的映射,那么以下说法等价

  1. \(f\)是可测的,即对任意开集\(V\subset Y\), \(f^{-1}(V)\in \mathcal{F}\).

  2. 对任意闭集\(C\subset Y\), \(f^{-1}(C)\in \mathcal{F}\).

  3. 对任意Borel可测集\(B\subset Y\), \(f^{-1}(B)\in \mathcal{F}\).

推论 1.4. 作为一个特殊情形,如果\(f:X\to \mathbb{R}\)是一个实函数,那么以下说法等价

  1. \(f\)是可测的

  2. 对任意开区间\(I\subset \mathbb{R}\), \(f^{-1}(I)\)是可测集

  3. 对任意\(a\in \mathbb{R}\), \(\{f<a\}\)是可测集

  4. 对任意\(a\in \mathbb{R}\), \(\{f\le a\}\)是可测集

  5. 对任意有理数\(q\in\mathbb{Q}\), \(\{f< q\}\)是可测集

  6. 对任意有理数\(q\in\mathbb{Q}\), \(\{f\le q\}\)是可测集

  7. 上面几条改成\(>\), \(\ge\).

例子:\(\mathbb{R}^n\)中的Lesbegue测度

这是最早构造出的测度的例子,对于\(\mathbb{R}^n\)上的一个集合\(U\),我们希望能定义出一个测度\(m\)来测量\(U\)体积。 遗憾的是这样的体积函数并不能对\(\mathbb{R}^n\)的所有子集定义出来!这是因为\(\mathbb{R}^n\)的子集实在是太多了,里面可以有很多很坏的子集,这些子集的存在会阻碍任何一个具有良好的性质的体积概念的存在。比方说 解决方案是,要么引入外测度来对所有集合定义出体积,但是这个外测度不一定满足可加性。要么就不再追求对所有的子集定义体积,而是将视野限制在所谓’可测集’上,从而在可测集上,可加性等良好性质得到保持。

事实上,\(\mathbb{R}^n\)上的Lesbegue外测度定义为 \[m^*(A):=\inf_{\bigcup_{i=1}^\infty Q_i\supset A} \sum_{i=1}^\infty |Q_i|\] 这里\(Q_i\)是一族\(n\)-维正方体,它们的并要求盖住\(A\),\(|Q_i|\)表示通常意义下立方体\(Q_i\)的体积。可以由这个外测度引出Lesbegue测度, 不过,我们不打算详细讲解Lesbegue测度的构造,因为其过程是非平凡的,会花去太多时间。而这与我们概率论的主题相悖。简单来说,\(\mathbb{R}^n\)中的可测集\(\mathcal{F}\)就是由所有开集再加上所有\(0\)-测集(即外测度为\(0\)的集合)生成的\(\sigma\)-代数(即所有开集和零测集通过反复使用可数交,并,补得到的集合构成的集族)。在这些可测集上,测度\(m\)可以由长方体的体积\(m(Q)=(b_1-a_1)\dots(b_n-a_n)\)唯一确定下来,这里\(Q\)\(\{x\in \mathbb{R}^n: x_i\in (a_i,b_i)\}\).

例子:离散空间上的测度

这里设\(X=\{x_1,\dots,x_n\}\)是一个有限集,\(\mathcal{F}\)\(X\)的所有子集,定义 \[\mu(\{x_i\})=a_i\ge 0\] 是某些给定的非负实数。那么\((X,\mathcal{F},\mu)\)构成一个简单的测度空间。当\(a_i=1\)时这个测度就是计数测度,对于这个测度,任何子集\(U\subset X\)\(\mu(U)\)就是集合\(U\)的元素个数。

例子:概率测度

这里把符号换成\((\Omega,\mathcal{A},\mathbb{P})\),如果\(\mathbb{P}(\Omega)=1\),那么我们称这个测度空间是一个概率空间\(\Omega\)可以称作状态空间,\(\sigma\)-代数\(\mathcal{A}\)里面的元素也叫事件,\(\mathbb{P}\)也叫概率测度。而\(\Omega\to\mathbb{R}\)的可测函数称作随机变量。这是今后我们会反复见到的例子。

投硬币的例子

假设我们要投\(n\)次硬币,投的过程是独立的并且每次正反面的机会相等。如果我们用一个序列\((x_1,x_2,\dots,x_n)\)来表示投硬币的结果,其中\(x_i=1\)\(0\)分别表示正面和反面。那么在这个问题中,状态空间就是 \[\Omega=\{(x_1,\dots,x_n):x_i\in\{0,1\}\}.\] 它的\(\sigma\)-代数,即所有可测集\(\mathcal{F}\)\(\Omega\)的所有子集构成, 其上的概率测度为由每个序列都赋予概率\(1/2^n\)得到的离散概率测度 \[\mathbb{P}(A):=\frac{|A|}{2^n}, \quad A\in \mathcal{F}.\] 那么可测函数是什么呢?比如可以定义\(X_i:\Omega\to \mathbb{R}\)为第\(i\)枚硬币的结果 \[X_i((x_1,\dots,x_n)):= x_i\] 这就是\(\Omega\)上的一个随机变量。类似的,\(X_1+X_2, X_1-X_2X_3\)等等这些都是不同的随机变量(也即可测函数). 事实上,由于我们定义的\(\Omega\)里面的所有子集都是可测集,所有函数\(f:\Omega\to \mathbb{R}\)都是可测的。

练习 1.5 (\(\bigstar\)). \(X\)是一个测度空间,证明,\(f:X\to \mathbb{C}\)是一个可测函数当且仅当\(f=u+iv\)的实部和虚部\(u:X\to \mathbb{R}\), \(v:X\to \mathbb{R}\)是可测函数。这里\(\mathbb{C}\)是一个视为与\(\mathbb{R}^2\)相同的拓扑空间。

测度和可测函数的基本性质

定理 1.2 (测度的性质).

  1. (单调性), 如果\(A\subset B\)是两个可测集,那么\(\mu(A)\le \mu(B)\). 事实上,如果此时\(\mu(B)<\infty\),那么还有 \[\mu(B\backslash A) = \mu(B)-\mu(A).\]

  2. (递增极限), 设\(A_1\subset A_2\subset\dots\) 是一列递增的可测集,并且\(A=\bigcup_i A_i\),那么 \[\lim_{i\to \infty} \mu(A_i) = \mu(A).\]

  3. (递降极限) 如果\(B_1\supset B_2\supset\dots\)是一列递降的可测集,并且\(\mu(B_1)<\infty\),记\(B=\bigcap_{i=1}^\infty B_i\),我们有 \[\lim_{i\to \infty}\mu(B_i) = \mu(B).\] 测度的递增极限和递降极限性质也叫单调极限。

  4. (可数半可加性), 如果\(A\subset \bigcup_{i=1}^\infty A_i\),这里\(A,A_i\)都是可测集,那么 \[\mu(A)\le \sum_{i=1}^\infty \mu(A_i).\]

  5. 如果\(\mu_1,\mu_2,\dots,\mu_n\)\(X\)上的一族以\(\mathcal{F}\)为可测集的测度,那么对任意非负实数\(a_i\ge 0\), \[A\mapsto \sum_{i=1}^n a_i\mu_i(A)\] 也是一个测度。(事实上,该命题对可数个\(\mu_i\)的情形也成立。)

Proof.

  1. \(\mu(B)=\mu(A\cup (B\backslash A)) = \mu(A)+\mu(B\backslash A)\ge \mu(A)\). 当\(\mu(B)<\infty\)时,\(\mu(A),\mu(B\backslash A)\)都是有限的,于是自然有 \[\mu(B\backslash A) = \mu(B)-\mu(A).\]

  2. 如果有一个\(A_i\)的测度为无穷,那么两边都是无穷。于是可设所有的\(\mu(A_i)<\infty\).记\(A_i' = A_i\backslash A_{i-1}\),约定\(A_0=\varnothing\).那么 \[A=\bigcup_{i} A_i = \bigcup_{i} A_i'\] 由可数可加性, \[\mu(A)=\sum_{n} \mu(A_n') = \lim_{N\to \infty} \sum_{n\le N} (\mu(A_n)-\mu(A_{n-1})) = \lim_{N\to \infty} \mu(A_N).\]

  3. 由于\(\mu(B_1)<\infty\),考虑\(A_i:= B_1\cap B_i^c = B_1\backslash B_i\).这是一个递增极限,并且有\(\bigcup A_i = B_1\backslash B\).那么由递增极限, \[\mu(B_1)-\mu(B_i)=\mu(A_i)\to \mu(B_1\backslash B) = \mu(B_1)-\mu(B),\]\(\mu(B_i)\to \mu(B)\).

  4. 首先由单调性,可以将\(A\)替换为\(\cup A_i\).然后, \[\mu(A\cup B)=\mu(A\cup (B\backslash A)) = \mu(A)+\mu(B\backslash A) \le \mu(A)+\mu(B).\] 这说明不等式对有限多个的情形成立,即 \[\mu\left(\bigcup_{i\le n}A_i\right)\le \sum_{i\le n} \mu(A_i).\] 两边取极限,利用递增极限性质有 \[\mu(A)\le \sum_{i=1}^\infty \mu(A_i).\]

 ◻

练习 1.6. 举一个当\(\mu(B_1)=\infty\)时,递降极限性质不成立的例子。

定理 1.3 (可测函数的基本性质).

  1. 如果\(f,g\)可测,则\(\alpha f\), \(f+g\)都是可测的。从而得出\(af+bg\)都是可测的。

  2. 如果\(f_n\)是一列可测函数,那么\(x\mapsto \sup_{n\ge 1} f_n(x)\)\(\inf_{n\ge 1} f_n(x)\)都是可测的。

Proof.

  • 如果\(\alpha=0\),常数显然是可测的。否则\(\{\alpha f < a\}=\{f<a/\alpha\}\)或者\(\{f>a/\alpha\}\)对任意\(a\)也是可测的。

  • 对于\(f+g\),可以将它视为映射\(F:X\to \mathbb{R}^2, x\mapsto (f(x),g(x))\)再复合\(G:\mathbb{R}^2\to \mathbb{R}:(x,y)\mapsto x+y\)得到的.只需证明前者是可测的,后者是连续的。对于前者,考虑\(\mathbb{R}^2\)上开矩形的拓扑基,对于每一个开矩形\(I\times J\)\(F^{-1}(I\times J) = f^{-1}(I)\cap g^{-1}(J)\)从而是可测的。对于后者,考虑对任意开区间\(I=(a,b)\),取原像集\(G^{-1}(I)\)中的任何一点\((x,y)\),那么它满足\(a<x+y<b\). 故可取包含\((x,y)\)的开矩形\((x-\epsilon,x+\epsilon)\times (y-\epsilon,y+\epsilon)\subset G^{-1}(I)\),这里\(\displaystyle \epsilon = \frac{\min(|x+y-b|,|x+y-a|)}{2}\).

    事实上,还有一种利用有理数的可数性质的证明,只需验证以下式子,这里\(r\)是任意有理数。 \[\{f+g<r\}=\bigcup_{r=p+q\atop p,q\in \mathbb{Q}}\{f<p\}\cap \{g<q\}.\]

  • 只需注意到 \[\{\sup f_n \le a\} = \bigcap_{n} \{f_n \le a\}\] 然后注意到\(\inf f_n = -\sup -f_n\).

 ◻

练习 1.7. 证明,对于复的可测函数\(f,g:X\to\mathbb{C}\),函数\(\alpha f, f+g\)都是可测的。\(\alpha\)是复数。

测度的积分

简单函数的积分

对于任何一个可测集\(A\in \mathcal{F}\), 定义如下称之为\(A\) 的示性函数或特征函数(不要将它与后面要讲的随机变量的特征函数即傅里叶变换混淆), 记为\(1_A\),为 \[1_A(x)=\left\{\begin{array}{lc} 1 & x\in A\\ 0 & x\not\in A. \end{array}\right.\] 在许多文献中也记为\(\chi_A(x)\),这是记号上的差别。

对于一些常数\(0\le c_i<\infty\)和一些可测集\(A_i\in \mathcal{F}\), 形如\(c_1 1_{A_1} + \dots + c_n 1_{A_n}\)的函数叫做(非负)简单函数。简单函数的特点是其值域仅为有限多个点,那么我们可以对简单函数的值域进行重新分解,使得集合\(A_i\)互不相交。令\(h\)为一个简单函数,其值域由有限个值\(a_i\)组成,那么定义 \[A_i=\{x\in X: s(x)=a_i\}\] 我们就有如下分解 \[h=\sum_{i=1}^n a_i 1_{A_i}.\] 这称为简单函数的标准分解(注意到简单函数可以有很多种不同的分解)。简单函数的积分可以很容易地定义出来,可以定义 \[\int h := \sum_{i=1}^n a_i \mu(A_i).\] 这里约定\(0\cdot \infty = 0\).然后对于可测集\(E\in\mathcal{F}\), 定义 \[\int_E h:= \int 1_E h.\] 有一个麻烦的地方是,需要说明这个定义不依赖于简单函数的分解的选取。

命题 1.3. 非负简单函数的积分不依赖于分解的选取。

Proof.\(h=\sum_{i=1}^n a_i 1_{A_i}=\sum_{i=1}^n b_i 1_{B_i}\)是两种不同的分解(如果项数不同,可以引入空集)。考虑集合\(A_i,A_i^c,B_i,B_i^c\)的所有可能的交集(至多有限个),我们记\(C_1,\dots,C_k\)是这里面产生的所有可能的不同的交(去除空集)。

事实上,每一个\(C_i\)都形如 \[S_1\cap \dots\cap S_n\cap T_1\cap\dots \cap T_n\] 其中\(S_i\)\(A_i,A_i^c\)中选取,\(T_i\)\(B_i,B_i^c\)中选取。可以看出它们两两不相交并且它们的并是整个\(X\). 那么我们可以将\(A_i\)\(B_i\)写成一些\(C_j\)的并,设\(\alpha_i,\beta_i\)是指标集使得 \[A_i=\bigcup_{j\in \alpha_i} C_j, \quad B_i=\bigcup_{j\in \beta_i} C_j\] 注意这是不交并,因此 \[\mu(A_i)=\sum_{j\in \alpha_i} \mu(C_j), \quad 1_{A_i}=\sum_{j\in \alpha_i} 1_{C_j}.\] 我们可以将表达式重写为 \[h=\sum_i a_i 1_{A_i}=\sum_i a_i \left(\sum_{j\in \alpha_i} 1_{C_j}\right) = \sum_{j} 1_{C_j} \left(\sum_{j\in \alpha_i} a_i\right)\] 同理 \[\sum_{j} 1_{C_j} \left(\sum_{j\in \alpha_i} a_i\right) = \sum_{j} 1_{C_j} \left(\sum_{j\in \beta_i} b_i\right).\] 由于\(C_j\)两两不相交并且非空,通过取\(x\in C_j\)并比较两边的值我们可以得到这两个分解的系数是完全相同的。于是通过对积分做相同的操作我们也可以得到 \[\sum_{i} a_i \mu(A_i) = \sum_j \left(\sum_{j\in \alpha_i}a_i\right)\mu(C_j)=\sum_j \left(\sum_{j\in \beta_i}b_i\right)\mu(C_j)=\sum_i b_i \mu(B_i).\] ◻

下面一个命题留作练习

命题 1.4. 对于非负简单函数\(g,h\)我们有 \[\int (g+h) = \int g + \int h.\]

非负可测函数的积分

事实上,(非负)简单函数是构造整个积分理论的’砖块’。下一步是对于任何非负可测函数\(f:X\to [0,\infty]\),我们定义

\[\int f:= \sup_{0\le h \le f} \int h\] 这里\(h\)取遍\(0\le h\le f\)的所有简单函数,并约定\(0\cdot \infty = 0.\) 容易看出非负可测函数的积分满足如下性质

  1. (单调性I) 如果\(0\le f\le g\)是可测函数,那么 \[\int_E f\le \int_E g.\] 这是上确界的性质。

  2. (单调性II) 如果\(f\ge 0\), \(E\subset F\)是可测集,那么 \[\int_E f\le \int_F f.\] 可由单调性I得出。

  3. (线性性I) \(f\ge 0\), \(c\ge 0\)是常数,那么 \[\int_E cf = c\int_E f.\] 基本上就是定义。

  4. \(f(E)=0\),则无关\(\mu(E)\)的值, \[\int_E f = 0.\]

  5. \(\mu(E)=0\),即使\(f=\infty\),也有 \[\int_E f = 0.\]

收敛定理

定理 1.4 (单调收敛定理). 如果\(0\le f_1\le f_2 \le \dots\)是一列递增的可测函数,设它的极限是\(f\),我们有\(f\)也是可测的并且 \[\int f_n \to \int f.\]

Proof.

  • \(f_n\)的单调性容易看出\(\{f_n>\alpha\}\)是一个递增集,于是有 \[\{f>\alpha\} = \bigcup_{n} \{f_n>\alpha\}\] 以及 \[\{f=\infty\} = \bigcap_{m} \{f>m\} = \bigcap_{m}\bigcup_{n} \{f_n>m\}.\] 从而知\(f\)是可测的。

  • 如果\(\{f=\infty\}\)是正测度的集合,那么显然两边都\(\to \infty\). 事实上,显然有 \[\mu\left(\bigcup_{n}\{f_n>m\}\right)\ge \mu(\{f=\infty\})\] 从而由测度的递增极限知 \[\lim \mu(\{f_n>m\}) \ge \mu(\{f=\infty\})\] \[\lim \int f_n \ge \lim \int m1_{f_n>m} \ge m\mu(\{f=\infty\})\] 对任意\(m>0\)成立。

  • 于是接下来假定\(I=\{f=\infty\}\)是零测集。但是零测集不影响积分,可以将\(f\)替换为\(f1_{I^c}\), \(f_n\)替换为\(f_n1_{I^c}\),命题中涉及的积分都不改变。于是接下来我们可以假定\(f<\infty\).

  • \(0<\alpha<1\),任取一个简单函数\(0\le h\le \alpha f\),定义集合\(A_n=\{x\in X: f_n(x)\ge \alpha f(x)\}\),则由收敛性有\(\bigcup A_n = X\). 这表明 \[\int f_n \ge \int_{A_n} f_n \ge \int_{A_n} h\] 而右边\(E\mapsto \int_E h\)是一个测度,由测度的递增极限性质,取极限时有 \[\lim \int f_n \ge \int h\] 再对\(0\le h\le \alpha f\)的所有简单函数取上确界,得到 \[\lim \int f_n \ge \alpha \int f\] 这里\(\alpha<1\)是任意的,于是我们得出不等式\(\lim \int f_n\ge \int f\), 而反向不等式显然成立。

 ◻

命题 1.5. 对任意非负可测函数\(f\),存在一列递增的非负简单函数\(f_i\to f\).

Proof. 如果\(0\le f\le 1\),即\(f\)是有界的,那么定义 \[f_n(x):= 2^{-n}\lfloor 2^n f(x) \rfloor.\] 如果\(f\)不是有界的,则定义 \[f_n(x):= \min(2^{-n}\lfloor 2^n f(x) \rfloor,n).\] 如果要具体写成简单函数的形式,令\(A_{k,n}=\{x: k2^{-n}\le f(x)< (k+1)2^{-n}\}\),这里\(k=1,2,\dots,n2^n\),我们有 \[f_n = \sum_{k=1}^{n2^n} \frac{k}{2^n} 1_{A_{k,n}}+n1_{f\ge n}.\] 它显然是递增的,并且\(|f-f_n|1_{f\le n}\le 2^{-n}\). ◻

推论 1.5. 非负函数的积分具有线性性,即 \[\int f+g = \int f+ \int g.\]

Proof. 取递增的非负简单函数\(f_n\to f\), \(g_n\to g\), 那么\(f_n+g_n\to f+g\)因而由单调收敛定理 \[\int f_n + \int g_n = \int f_n+g_n \to \int f+g\] 而左边的极限正是\(\int f+\int g\). ◻

推论 1.6. 如果\(f_n\ge 0\)是一族非负可测函数,那么 \[\int \sum_n f_n = \sum_n \int f_n.\]

练习 1.8. 利用上述推论,证明,一个非负可测函数\(f\ge 0\)所定义的积分 \[E\mapsto \int_E f\] 也是一个\(\mathcal{F}\)上的测度。

下面的Fatou引理是证明测度积分论的里程碑,Lesbegue控制收敛定理的关键。

定理 1.5 (Fatou引理). 对于一族非负可测函数\(f_n\),我们有 \[\int \liminf_{n\to\infty} f_n \le \liminf_{n\to \infty} \int f_n.\]

Proof. 显然有 \[\int \inf_{k\ge n} f_k(x) \le \int f_n\] 这里注意到\(\inf_{k\ge n} f_k\)关于\(n\)是递增函数列。于是两边取下极限,利用单调收敛定理就有 \[\int \liminf_{n\to \infty} f_n(x) \le \liminf_{n\to \infty} \int f_n.\] ◻

练习 1.9. 给出Fatou引理中等号不成立的例子。

一般函数的积分

对于取值在\([-\infty,+\infty]\)的一般可测函数\(f\), 设\(f_+ = f\cdot 1_{f\ge 0}\), \(f_- = -f\cdot 1_{f<0}\)是两个非负可测函数,那么显然\(f=f_+-f_-\). 在测度意义下的一般的函数的积分由下式定义 \[\int f = \int f_+ - \int f_-\] 这里由于涉及两个非负数相减,需要避免\(\infty - \infty\)的情况,于是只要当上述两个积分至少有一个不为无穷时,\(f\)的积分是可以唯一的被确定下来的。不过一般意义上我们所说的可积函数是指满足 \[\int |f| <\infty\] 的函数,此时\(\int f_+, \int f_-\)都小于无穷。有时我们需要考虑取值为复数的可测函数\(f=u+iv:X\to \mathbb{C}\).根据\(\mathbb{C}\)上的拓扑,它可测当且仅当\(u,v\)都可测,这时我们可以定义它的积分为 \[\int f = \int u + i \int v\] 而我们说\(f\)可积等价于\(u,v\)都可积,这也等价于说\(\int |f|<\infty\).我们记\((X,\mathcal{F},\mu)\)上所有可积(实或复)函数构成的空间为\(L^1(X,\mathcal{F},\mu)\),简记为\(L^1(\mu)\).

一般积分的定理

引理 1.1. 对于实函可积数\(f,g\in L^1(\mu)\)\[\int af+bg=a\int f+b\int g.\]

Proof. \(\int af=a\int f\)显然成立,故只需证明\(\int f+g=\int f+ \int g\). 设\(h=f+g\),我们有 \[h_+-h_-=f_+-f_-+g_+-g_-\]\[f_++g_++h_- = f_-+g_-+g_+\] 注意由\(f,g\)可积,\(h\)也可积并且上述六个函数的积分都是有限的。于是从非负的积分的可加性,有 \[\int f_+ + g_+ + h_- = \int f_+ + \int g_+ + \int h_-\] \[\int f_- + g_- + h_+ = \int f_- + \int g_- + \int h_+\] 我们相减得到 \[0 = \int f + \int g - \int h.\] ◻

定理 1.6 (线性性). 对于一般的复函数\(f,g\in L^1(\mu)\)和复数\(\alpha,\beta\in\mathbb{C}\),我们有\(\alpha f+\beta g\in L^1(\mu)\)也是可积的,并且有 \[\int (\alpha f+\beta g) = \alpha \int f + \beta \int g.\]

Proof.

  • 只需对\(\alpha f\), \(f+g\)这两种情况加以证明。 对于\(\alpha = a+ib\),\(f=u+iv\)我们有 \[\alpha f = (a+ib)(u+iv) = au-bv + i(av+bu).\] 显然\(|\alpha f|\le |\alpha||f|\)故它是可积的,并且\(au-bv,av+bu\)显然也是可积的,于是由实函数积分的线性性, \[\int \alpha f = a\int u - b\int v + i a \int v + i b \int u = (a+ib)\int f.\]

  • 对于\(f+g\),由\(|f+g|\le |f|+|g|\)可以知道\(f+g\in L^1(\mu)\).设\(f=u+iv, g=s+it\)\[\begin{aligned} \int f+g &= \int (u+s) + i \int (v+t) \\ &= \left(\int u + i \int v\right) + \left(\int s + i \int t\right) \\ &= \int f + \int g. \end{aligned}\]

 ◻

定理 1.7 (三角不等式). 对于\(f\in L^1(\mu)\)\[\left|\int f\right|\le \int |f|.\]

Proof. 通过给\(f\)乘以一个单位复数调整\(\int f\)的辐角,可以将\(\int f\)调整到非负实数。此时它就等于\(|\int f|\),而两边的积分都不改变。于是对这样的\(f=u+iv\), \[\int f = \int u \le \int |u+iv| = \int |f|.\] ◻

接下来我们终于迎来了本章最后一个重要定理,它将是测度积分论中处理各种极限过程的有力手段。

定理 1.8 (Lesbegue控制收敛定理). \(f_n\)是一族可测函数,其逐点极限为\(f\).如果存在非负可测的可积函数\(g\in L^1(\mu)\)使得\(|f_n|\le g\)对所有\(n\)成立,那么\(f\)也是可积的,并且 \[\lim_{n\to \infty} \int f_n = \int f.\]

Proof. 事实上我们证明一个更强的命题 \[\int |f_n-f|\to 0.\] 对非负可测函数\(2g-|f_n-f|\)用Fatou引理,有 \[\int 2g \le \liminf \int 2g - |f_n-f| = \int 2g - \limsup \int |f_n-f|,\] 这里用到了\(|f_n-f|\le 2g\)的可积性。此即 \[\limsup \int |f_n-f|\le 0.\] ◻

练习 1.10 (\(\bigstar\bigstar\)). \(X\)是一个测度空间. 考虑由某个开区间上的实数\(t\in I\)编号的一族函数\(f_t(x):X\to \mathbb{C}\).假定\(f_t\)是可积的并且关于\(t\)可导并有导函数连续,以及\(x\mapsto \sup_{t\in I} \left|\frac{\partial f_t(x)}{\partial t}\right|\)是可积函数。证明对任意\(t_0\in I\)\[\left.\frac{\mathrm{d}}{\mathrm{d}t}\right|_{t=t_0} \int f_t(x) = \int \frac{\partial f_{t_0}}{\partial t}.\] 注意需证明对任意\(t\in I\), \(\frac{\partial f_t}{\partial t}\)是关于\(x\)可测的。

练习 1.11. 利用\(\mathbb{N}=\{1,2,3,\dots\}\)上的计数测度,讨论级数\(\sum_{n=1}^\infty a_n\)与积分的联系。

  1. 说明,\(n\to a_n\)是可积函数当且仅当\(\sum a_n\)绝对收敛。

  2. 利用控制收敛定理,证明调和级数\(a_n = \frac{1}{n}\)的和发散(到\(\infty\)).事实上,假定\(\frac{1}{n}\)可积(即调和级数收敛),用控制收敛定理考察函数列 \[f_k(n):=\frac{1}{k}\cdot 1_{n\le k}.\]

  3. 用类似的方法,证明若非负递降序列\(a_n\ge 0\)的和收敛,那么\(na_n\to 0\).

练习 1.12 (特征函数的应用). \(X\)是一个集合,\((A_i)_{i=1}^n\)是一些子集,可以将它们视为\(X\)中具有一些性质的元素构成的集合。记\(\mathcal{F}\)为包含\(\{A_1,\dots,A_n\}\)的最小\(\sigma\)-代数,\(A=\bigcup_{i=1}^n A_i\)是至少具有一个性质的那些元素构成的集合,\(A^c\)则是不具有任何性质的元素构成的集合。通过展开,证明 \[1_{A^c} = \prod_{i=1}^n (1-1_{A_i}) = 1 - \sum_{i_1} 1_{A_{i_1}} + \sum_{i_1<i_2} 1_{A_{i_1}}1_{A_{i_2}} -\dots\]\[1_{A^c} = 1+ \sum_{k=1}^n (-1)^k\sum_{1\le i_1<\dots<i_k\le n} \prod_{r=1}^k 1_{A_{i_r}}\] 当假定上式右侧对\(k\)的每一项都可积时,整个式子可积。从而对\(X\)上的任一个对\(\mathcal{F}\)可测的测度\(\mu\)积分,在可积的假定下(\(\mu(X)<\infty\)),得出一般的容斥原理 \[\mu(A^c) = \mu(X) + \sum_{k=1}^n (-1)^k\sum_{1\le i_1<\dots<i_k\le n} \mu\left(\bigcap_{r=1}^k A_{i_r}\right).\] 说明对计数测度,概率测度分别能得到什么式子?

练习 1.13 (\(\bigstar\)无限项的容斥原理). 证明,如果 \[\mu(X)+\sum_{k=1}^\infty \sum_{1\le i_1<\dots<i_k} \mu\left(\bigcap_{r=1}^k A_{i_r}\right) <\infty\] 那么无限项的容斥原理成立 \[\mu(A^c) = \mu(X) + \sum_{k=1}^\infty (-1)^k\sum_{1\le i_1<\dots<i_k} \mu\left(\bigcap_{r=1}^k A_{i_r}\right).\]

积分记号说明

如前所述,在明确对哪一个空间,测度和变量积分时,\(f\)的积分可以直接记为 \[\int f.\] 当我们想要强调在对\(\mu\)这个测度积分时,或者要强调被积函数的变量是\(x\),亦或者强调积分的空间是\(\Omega\)时,我们将上述积分写成 \[\int_\Omega f \,{\rm d}\mu = \int_\Omega f(x) \,{\rm d}\mu(x) = \int_\Omega f(x)\mu(\mathrm{d}x).\] 特别的,对于\(\mathbb{R}\)\(\mathbb{R}^n\)上的勒贝格测度,可以写为\(\,{\rm d}m(x)\),通常也直接写为\(\,{\rm d}x\).

非负可测函数的Radon-Nikodým定理

本节是硬核的测度论内容,想尽快进入概率论的同学可以选择先将该定理承认。

如果\(\mu(X)<\infty\),我们就说\(\mu\)有限的。如果存在一族\(A_i\in \mathcal{F}\)使得\(X=\bigcup_{i=1}^\infty A_i\)\(\mu(A_i)<\infty\),我们就说\(\mu\)\(\sigma\)-有限的。

对于可测空间\(X,\mathcal{F}\)上的两个测度\(\mu_1,\mu_2\),如果对任何可测集\(A\in\mathcal{F}\)有, \[\mu_1(A)=0\Rightarrow \mu_2(A)=0\] 我们就称\(\mu_2\)关于\(\mu_1\)绝对连续,记为\(\mu_2\ll \mu_1\)。如果存在集合\(C\)使得\(\mu_1(A)=\mu_1(A\cap C)\)对任意\(A\in \mathcal{F}\)成立,我们就说\(\mu_1\)集中于\(C\). 如果\(\mu_1\)集中于\(C\)上而\(\mu_2\)集中于\(C^c\)上(这等价于说\(\mu_1(C^c)=\mu_2(C)=0\)),我们就说\(\mu_1\)\(\mu_2\)互相奇异,记为\(\mu_1\perp \mu_2\).

\(X\)是一个测度空间,回忆前面证明过,如果\(f\)是一个非负可测函数,那么 \[E\in \mathcal{F}\mapsto \int_E f\,{\rm d}\mu\] 是一个测度。它相当于在原来的测度上进行了’加权’。那么自然我们想问,是否所有\(X\)上的测度都能写成这个样子?答案当然是否定的,因为这个积分的定义依赖于你原来的测度\(\mu\)的定义。如果你原来的测度就是\(0\)测度,即什么集合都给出\(0\)的测度,那么任何非零测度都不能写成上述形式。由积分的性质我们容易观察到,任何上述形式的测度都是关于\(\mu\)绝对连续的,那么这给出了一个将任意测度表达为指定测度的积分的必要条件。而事实上这是一个充分条件。

定理 1.9 (Radon-Nikodým). 对于\(X\)上两个\(\sigma\)-有限测度\(\mu,\nu\),如果\(\nu\ll\mu\),那么存在非负可测函数\(f\)使得 \[\,{\rm d}\nu = f\,{\rm d}\mu.\] 其含义为 \[\nu(A)=\int_A f\,{\rm d}\mu \quad \forall A\in \mathcal{F}.\] 事实上,对于任两个\(\sigma\)-有限测度\(\mu,\nu\),存在一个测度的分解,将\(\nu\)分解为对\(\mu\)绝对连续的部分和互相奇异的部分: \[\nu= \nu_a + \nu_s\] 使得\(\nu_a\ll \mu\)从而\(\,{\rm d}\nu_a = f\,{\rm d}\mu\), 并且\(\nu_s\perp \mu\).

为证明该定理,我们需要讲一些别的内容,首先定义一个有趣的概念。我们说一个有界符号测度\(\mu\)是指一个\(\mathcal{F}\)上的有界函数 \[\mu:\mathcal{F}\to \mathbb{R}\] 满足可数可加性。准确的来讲,这就要求对任意可数的不交并\(A=\bigcup_{i=1}^\infty A_i\), 我们有 \[\mu(A)=\sum_{i=1}^\infty \mu(A_i)\] 其中右边的级数我们要求绝对收敛(因为不像非负和与求和次序无关,一般的收敛级数与求和次序无关当且仅当它绝对收敛)。那么我们注意到,两个有限测度的差是有界符号测度。反过来,能否将有界符号测度写为两个测度的差?这个过程就是如下的Hahn分解。

定理 1.10 (Hahn). 任何有界符号测度\(\nu\)可以唯一的写成两个有界,非负,并且互相奇异的测度的差。即 \[\nu = \nu_+ - \nu_-.\]

Proof.

  • 我们考虑找一个使\(\nu(A)\)最大的集合,相当于先把\(\nu\)的’正的部分’集中起来。由有界性,可以取出一列\(A_i\)使得 \[\nu(A_i)\to \alpha:=\sup_{A\in\mathcal{F}} \nu(A)<\infty.\] 注意 \[\alpha-\nu(A\cup A') = \alpha - \nu(A)-\nu(A')+\nu(A\cap A')\le 2\alpha-\nu(A)-\nu(A')\] 归纳可得\(\alpha - \nu(\bigcup_{i=1}^n A_i)\le \sum (\alpha -\nu(A_i)).\)那么通过选取子列,不妨设\(\alpha-\nu(A_i)\le 2^{-i}\),由递增极限性质(利用可数可加性容易证明,对有界符号测度成立递增极限和递降极限性质)可以得到 \[\alpha - \nu\left(\bigcup_{k\ge n}A_k\right)\le \sum_{k\ge n} 2^{-k}= 2^{-n}.\] 于是再由递降极限,\(A=\bigcap_{n} \bigcup_{k\ge n} A_k\)是一个可测集并且\(\nu(A)=\alpha\).

  • 我们来证明\(E\mapsto \nu(E\cap A)\)就是我们要的\(\nu_+\),而\(E\mapsto -\nu(E\cap A^c)\)就是我们要的\(\nu_-\),从而它们自动是互相奇异的。从 \[\nu(E)=\nu(E\cap A)+\nu(E\cap A^c) = \nu_+ - \nu_-\] 我们知道,只需验证有界符号测度\(\nu_+\)\(\nu_-\)是测度,即取值非负即可。 如果有集合\(A_1\subset A\)使得\(\nu_+(A_1)<0\),那么\(\nu(A\backslash A_1) = \nu(A)-\nu(A_1)>\nu(A)\),这与\(\alpha\)的定义相悖。故\(\nu_+\)是非负的,同理\(\nu_-\)也是非负的。

  • 还需证明唯一性。设有另一个分解\(\nu = \mu_+ - \mu_-\),这里\(\mu_+\perp\mu_-\),那么设\(\mu_+\)集中在\(B\)上而\(\mu_-\)集中在\(B^c\)上。那么 \[0\ge -\mu_-(A\cap B^c)=\nu(A\cap B^c) = \nu_+(A\cap B^c)\ge 0\] 同理\(\nu(A\cap B^c)=\nu(A^c\cap B)=0\),从而\(\nu_+,\nu_-,\mu_+,\mu_-\)\(A-B,B-A\)上都是\(0\). 我们有 \[\nu_+(E)=\nu_+(E\cap A) = \nu(E\cap A) = \nu(E\cap B) = \mu_+(E).\] 同理\(\nu_-(E)=\mu_-(E)\).

 ◻

那么接下来,我们看看Radon-Nikodym的证明还需要什么。先考虑\(\mu,\nu\)都是有限测度的情形,我们定义 \[\alpha = \sup_{f\in M} \int f\,{\rm d}\mu,\quad M=\left\{ f\text{可测}: \,{\rm d}\nu \ge f\,{\rm d}\mu\right\}.\] 那么可以取出一系列可测函数\(f_i\in M\)使得它们的积分\(\int f_i\to \alpha\).注意到,如果\(f,g\in M\),即满足\(\,{\rm d}\nu\ge (\cdot)\,{\rm d}\mu\),那么它们的最大值也满足,即 \(\sup\{f(x),g(x)\}\in M\).这是因为可以取\(A_1:=\{f>g\}\)\(A_2=\{f\le g\}\),因而对任意\(E\), \[\nu(E) =\nu(E\cap A_1) + \nu(E\cap A_2) \ge \int_{E\cap A_1} f+\int_{E\cap A_2}g= \int_E \sup\{f,g\}\,{\rm d}\mu.\] 这表明\(\sup_{i\le n} f_i\in M\)也满足条件。对\(n\to \infty\)取极限,由单调收敛定理有\(g=\sup_{i} f_i\in M\)并事实上取到积分的最大值\(\int g\,{\rm d}\mu=\alpha\). 考虑 \[\nu_2(E):= \nu(E)-\int_E g\,{\rm d}\mu \ge 0,\] 我们希望证明\(\nu_2\perp \mu\).那么也就是说,如果它们不互相奇异,我们希望能找出一个\(\mu\)积分非零的函数\(h\)使得\(\,{\rm d}\nu_2 \ge h\,{\rm d}\mu\),这样\(g+h\in M\)于是就会和\(g\)的积分极大性质冲突,从而得到矛盾。为了做到这一点,我们需要用到Hahn分解这个非平凡的结论。为了尝试得到这样一个函数,我们要考虑越来越小的可能的\(h\).考虑一族有界符号测度 \[\lambda_n:=\nu_2-\frac{1}{n}\mu\] 并根据Hahn分解,设\(\lambda_{n+}\)集中在\(A_n\)上,对应的\(\lambda_{n-}\)集中在\(A_n^c\)上。那么我们就有\(\frac{1_{A_n}}{n}\in M\),但是\(\frac{1_{A_n}}{n}\)关于\(\mu\)的积分还不知道是不是正的。由于\(n\)递增时,\(\lambda_n\)也递增,故可以假定\(A_n\)是一个递增集,那么令 \[A_\infty:=\bigcup_{n=1}^\infty A_n, \quad A_\infty^c=\bigcap_{n=1}^\infty A_n^c.\] 注意到\(\lambda_n(A_n^c)\le 0\),从而 \[\nu_2(A_\infty^c)\le \nu_2(A_n^c) \le \frac{1}{n}\mu(A_n^c)\le\frac{1}{n}\mu(X) \to 0\] 这表明\(\nu_2\)集中在\(A_\infty\)上。 由于假定了\(\mu\)\(\nu_2\)不互相奇异,这也就是说,对任意可测集\(E\),\(\mu(E),\nu_2(E^c)\)至少有一个不是\(0\).那么取\(E=A_\infty\)就会有\(\mu(A_\infty)>0\),从而由递增极限知存在\(n\)使得\(\mu(A_n)>0\).这就表明\(\frac{1_{A_n}}{n}\)的积分是正的并且\(\,{\rm d}\nu_2\ge \frac{1_{A_n}}{n}\,{\rm d}\mu\).

对于唯一性,考虑\(\nu = \nu_a'+\nu_s'\)是另一组分解,那么\(\nu_a-\nu_a' = \nu_s-\nu_s'\),由于左边关于\(\mu\)绝对连续,右边关于\(\mu\)互相奇异,这样关于一个测度既绝对连续又互相奇异的测度或者有界符号测度只能是\(0\).具体来说,可设右边集中于\(E\)上,这里\(\mu(E)=0\).则对任意\(F\subset E\)由于绝对连续,\(\mu(F)=0\Rightarrow \nu_a(F)-\nu_a'(F)=0\).这就表明对任意可测集合,上述等式两边都是\(0\). 至于\(f\)关于\(\mu\)在至多相差一个零测集上的唯一性则是显然的。

现在我们回到\(\sigma\)-有限测度\(\nu,\mu\)上来,由于空间可以分解成至多可数个可测集的不交并\(X=\bigcup_{n=1}^\infty X_i\),其中每个关于\(\nu,\mu\)的测度都是有限的(这可以将\(\nu,\mu\)分别得到的\(\sigma\)-有限分解相交来得到)。那么这就化归回了有限测度的情形,将得到的集中于\(X_i\)上的测度和可测函数\(f_i1_{X_i}\)相加即可得到\(X\)上所需的结论。

1.1. 其实Radon-Nikodým定理还有一个更简单的利用Hilbert内积空间的证明,并且结论更加一般(对复可测函数成立)。

推论 1.7. \(\mu\)\(\mathbb{R}\)上的有限测度,则存在\(\mathbb{R}\)上关于Lesbegue测度\(m\)非负可测的函数\(f\)和一个关于\(m\)奇异的测度\(\mu_s\)使得 \[\,{\rm d}\mu = f\,{\rm d}m + \,{\rm d}\mu_s.\] 如果\(\mu\ll m\),则\(\,{\rm d}\mu = f\,{\rm d}m\).

测度论的其他重要内容(非主线,不讲)

本节内容是测度论的进一步的一些内容。它们在概率论中当然也有用,但我们不打算讲,今后要用到时会承认这些结论,留给感兴趣的同学阅读。

几类子集结构,单调类定理

\(\mathcal{A}\subset X\)是一族子集,我们称它是

  1. 一个\(\pi\)-集,或者\(\pi\)-类,如果\(\mathcal{A}\)保持有限交。

  2. 一个单调类,如果\(\mathcal{A}\)保持递增极限和递降极限。

  3. 一个\(\lambda\)-集或者\(\lambda\)类,如果它是单调类,并且子集之间可以作差(简称为真差),即\(E\subset F\Rightarrow F-E\in\mathcal{A}\), 另外还要求\(\varnothing,X\in \mathcal{A}\).(事实上,由于\(\lambda\)-集内可以取补,单调类的假设等价于只假定递增极限)

  4. 一个,如果\(\mathcal{A}\)保持作差(不需要是真差)和有限并(从而也包含有限交)。

  5. 一个半环,如果\(\mathcal{A}\)保持有限交,并且作差产生的集合是有限个\(\mathcal{A}\)内不交的集合的并。

  6. 一个代数,如果\(\mathcal{A}\)保持有限交并补,并且包含\(\varnothing,X\).

类似于前面讲过的集合生成的\(\sigma\)代数,我们分别记\(\mathcal{A}\)生成的\(\pi\)-集,单调类,\(\lambda\)集和\(\sigma\)代数为\(\pi(\mathcal{A}),M(\mathcal{A}),\lambda(\mathcal{A}),\sigma(\mathcal{A})\).

引理 1.2. 我们有\(\lambda+\pi=\sigma\).即如果一个集族\(\mathcal{A}\)既是\(\lambda\)-类又是\(\pi\)-类,那么它是\(\sigma\)-代数。

Proof. 显然在\(\lambda\)类中可以取补,于是我们有有限交和有限并。设\(A_i\)是一个可数的子集族,我们希望证明\(A_i\)的可数并还在\(\mathcal{A}\)中,从而由于可以取补集,就会得到可数交也成立。

我们试图将\(A_i\)的并的问题化为一个递增的单调类的问题,那么考虑\(B_n=\bigcup_{i\le n} A_i\),由于有限并在\(\mathcal{A}\)内,这个集合也在\(\mathcal{A}\)内。于是由于\(B_n\)是一个递增集, \[\bigcup_{i=1}^\infty A_i = \bigcup_{n=1}^\infty B_n\in \mathcal{A}.\] ◻

引理 1.3. \(\Pi\)是一个\(\pi\)类,我们有\(\lambda(\Pi) = \sigma(\Pi)\).

Proof. 根据上面的引理,我们需要证明\(\lambda(\Pi)\)是一个\(\pi\)类,从而\(\lambda(\Pi)\supset \sigma(\Pi)\), 而 \(\sigma(\Pi)\supset \lambda(\Pi)\)是显然的。 对任意\(B_0\in \Pi\),我们考虑 \[\{A\in \lambda(\Pi): A\cap B_0 \in \lambda(\Pi)\}.\] 它显然包含\(X,\varnothing\)以及\(\Pi\),并且保持真差和递增极限。于是我们知道它包含\(\lambda(\Pi)\). 这表明 \[\lambda(\Pi)\cap' \Pi \subset \lambda(\Pi),\] 这里我们用\(\cap'\)表示集族中元素的交构成的集合,区分于集族的交集。 下一步,我们令\(A_0\in \lambda(\Pi)\),考虑 \[\{B\in \lambda(\Pi): A_0\cap B\in \lambda(\Pi)\}.\] 类似的,由我们证明的结果,它显然包含\(\Pi\),于是再由\(\lambda\)集的性质我们推出它包含\(\lambda(\Pi)\),因此 \[\lambda(\Pi)\cap' \lambda(\Pi)\subset \lambda(\Pi).\] 至此我们证明了\(\lambda(\Pi)\)是一个\(\pi\)类,从而是\(\sigma\)-代数,从而包含\(\sigma(\Pi)\). ◻

定理 1.11 (单调类定理). \(\Lambda\)是一个\(\lambda\)集,\(\Pi\)是一个\(\pi\)集,那么 \[\Lambda\supset \Pi \Rightarrow \Lambda \supset \sigma(\Pi).\]

Proof. 由上面两个引理立得 \[\Lambda \supset \lambda(\Pi) = \sigma(\Pi).\] ◻

推论 1.8 (测度的唯一性).

  1. 如果\(\mu_1,\mu_2\)\(\sigma\)-代数\(\mathcal{F}\subset X\)上的两个测度,并且\(\mu_1\)\(\mu_2\)在一个\(\pi\)\(\mathcal{P}\subset \mathcal{F}\)上相等,满足\(\mu_1(X)=\mu_2(X)<\infty\), 那么它们在\(\sigma(\mathcal{P})\)上相等。

  2. 同上,但\(\mu_1(X)=\mu_2(X)<\infty\)的条件放宽为,存在可数个递增集\(P_i\in \mathcal{P}\)使得\(X=\bigcup_{i=1}^\infty P_i\)并且\(\mu_1(P_i)=\mu_2(P_i)<\infty\).

Proof.

  1. 只需注意到由测度的性质可以推出\(\{A\in \mathcal{F}: \mu_1(A)=\mu_2(A)\}\)是一个\(\lambda\)类,从而包含\(\sigma(\mathcal{P})\).

  2. \(M=\{\mu_1(A)=\mu_2(A)\}\)是一个单调类,它包含\(\mathcal{P}\).为验证它是一个\(\lambda\)类,只需验证真差。 对任意\(E\subset F\in \mathcal{P}\),考虑 \[F-E = \bigcup_{i=1}^\infty F\cap P_i - \bigcup_{i=1}^\infty E\cap P_i = \bigcup_{i=1}^\infty (F\cap P_i-E\cap P_i).\] 那么此时\(F\cap P_i- E\cap P_i\in M\),而\(M\)又保持递增极限,因此\(F-E\in M\).

 ◻

推论 1.9. 对于\((\mathbb{R},\mathcal{B})\)上的两个测度(定义在Borel可测集\(\mathcal{B}\)上)\(\mu_1,\mu_2\),如果它们在所有有界开区间上有限并相等,那么它们相等。同样的命题对有界的闭区间,有界的左开右闭区间等,都成立。

测度的扩张,Lesbegue测度

乘积测度,Fubini定理

\((X,\mathcal{F},\mu_1)\),\((Y,\mathcal{G},\mu_2)\)是两个测度空间,我们可以定义所谓乘积\(\sigma\)代数,是由所有形如\(\{X\times G:G\in\mathcal{G}\}\)\(\{F\times Y:F\in\mathcal{F}\}\)生成的\(\sigma\)-代数,记为\(\mathcal{F}\otimes \mathcal{G}\). 在这个\(\sigma\)-代数上,可以定义乘积测度\(\mu_1\otimes \mu_2\),为 \[\mu_1\otimes \mu_2 (A\times B):= \mu_1(A)\mu_2(B)\] 所唯一确定的测度(唯一性由测度的唯一性定理给出)。具体来说,对任意可测子集\(A\in\mathcal{F}\otimes \mathcal{G}\),我们试图用积分来定义乘积测度 \[\mu_1\otimes \mu_2(A):= \int_Y \left(\int_X 1_{(x,y)\in A} \,\mu_1(\mathrm{d}x)\right) \mu_2(\mathrm{d}y)\] 但是这里我们会遇到一个问题:内层积分里\(x\mapsto f(x,y)\)可测吗?以及整个积分是否对\(y\)是可测函数?为此我们需要如下基本的引理

引理 1.4 (截面).

  1. \(f(x,y)\ge 0\)\(X\times Y\)上的非负可测函数,那么对任意\(x\),函数\(y\mapsto f(x,y)\)\(Y\)上的可测函数。

  2. 如果\(\mu_1\)\(\sigma\)-有限的,那么 \[y\mapsto \int_X f(x,y) \mu_1(\mathrm{d}x)\] 是可测的。

Proof.

  1. 命题显然对乘积形示性函数\(1_{A\times B}\)是成立的,这里\(A\in\mathcal{F},B\in\mathcal{G}\).设 \[\mathcal{A}= \{A\in \mathcal{F}\otimes \mathcal{G}: 1_A(x,y)\text{关于单变量可测}\}\] 我们知道所有矩形\(\in \mathcal{A}\).由于\(1_{A^c}=1-1_A\), \(1_{\bigcap_i A_i} = \inf_i 1_{A_i}\), \(1_{\bigcup_i A_i} = \sup_i 1_{A_i}\), 我们知道\(\mathcal{A}\)是一个\(\sigma\)-代数,于是它等于\(\mathcal{F}\otimes \mathcal{G}\),从而命题对所有示性函数都成立。那么由单调收敛定理可知命题对所有非负可测函数成立。

  2. 假定\(\mu_1\)有限。同样可以验证对于乘积形示性函数\(f=1_{A\times B} = 1_{x\in A}1_{y\in B}\)命题成立, \[\int_X 1_{x\in A}1_{y\in B}\,\mu_1(\mathrm{d}x) = \mu_1(A)1_{y\in B}\] 然后知使命题成立的子集包含由所有矩形生成的\(\pi\)-类。由\(\mu_1\)的有限性我们可以做真差,再由单调收敛定理它同时也是一个\(\lambda\)-类,于是它包含所有矩形生成的\(\sigma\)-代数,即\(\mathcal{F}\otimes\mathcal{G}\). 再由单调收敛定理知命题对所有非负可测函数\(f\)成立。

    对于\(\mu_1\)\(\sigma\)有限的情形,可以将命题写为可数个有限测度的和。

 ◻

定理 1.12 (Fubini). \(\mu_1,\mu_2\)分别是\(X,Y\)上的\(\sigma\)-有限测度,那么存在唯一的\((X\times Y,\mathcal{F}\otimes\mathcal{G})\)上的测度\(\mu_1\otimes \mu_2\),使得 \[\mu_1\otimes\mu_2(A\times B) = \mu_1(A)\mu_2(B).\] 并且对任意可积函数\(f\in L^1(\mu_1\otimes\mu_2)\)满足累次积分可交换 \[\int f \,{\rm d}\mu_1\otimes\mu_2 = \int_X \left(\int_Y f(x,y)\,\mu_2(\mathrm{d}y) \right) \,\mu_1(\mathrm{d}x) = \int_Y \left(\int_X f(x,y) \,\mu_1(\mathrm{d}x) \right) \,\mu_2(\mathrm{d}y).\]

Proof. 存在性和唯一性已经证明了。由\(\mu_1,\mu_2\)\(\sigma\)-有限性可以推知\(\mu_1\otimes\mu_2\)也是\(\sigma\)-有限的,故可以假定其有限。此时对于累次积分,先验证乘积形示性函数,再由单调类论证推广到一般的示性函数和非负可测函数上。为推广到可积函数上,注意对\(f_+\)有积分有限,故内层积分\(y\mapsto \int f_+(x,y)\),\(x\mapsto \int f_-(x,y)\)关于测度\(\mu_2\),\(\mu_1\)几乎处处有限。我们可以修改\(f_+\)的值使得在这些零测集上\(f_+=0\),从而\(f_+\)是处处有限并不影响积分。那么此时可以对非负函数作差从而得出积分换序对可积函数成立。 ◻

概率空间

回忆一个概率空间\((\Omega,\mathcal{A},\mathbb{P})\)是指一个测度为\(1\)的测度空间,即要求 \[\mathbb{P}(\Omega)=1.\] \(\Omega\)上的一个随机变量是指一个可测函数\(X:\Omega\to \mathbb{R}\). 通常,我们用大写字母如\(X,Y,Z\)来表示随机变量,而大写字母\(A,B,C\)等则通常表示\(\mathcal{A}\)内的可测集。用小写字母\(\omega\in \Omega\)表示空间\(\Omega\)中的点。

更一般的我们可以考虑一般的可测函数\(\Omega\to S\),这里\(S\)通常是拓扑空间或者度量空间。不过最常用的情形还是所谓的随机向量,即可测函数\(X:\Omega\to \mathbb{R}^n\).这等价于给出\(n\)个随机变量\(X=(X_1,X_2,\dots,X_n)\).

期望值

对于随机变量\(X:\Omega\to \mathbb{R}\),如果它是可积的,即\(X\in L^1(\mathbb{P})\),则可以定义它的期望值 \[\mathbb{E}X := \int_\Omega X\] 换而言之,\(\mathbb{E}\)就是概率空间中的’积分号’。那么期望值的性质就可以直接从积分的性质得到,这包括单调性,线性性,单调收敛定理和控制收敛定理等。一般而言,将期望值\(\mathbb{E}\)视为概率学中积分号的特殊写法即可。

注意到对于任意事件\(A\in \mathcal{A}\),我们有\(1_{A}\)可测并且 \[\mathbb{E}1_A = \int_\Omega 1_A \,{\rm d}\mathbb{P}= \mathbb{P}(A).\] 这给出了表达事件概率的期望写法,即\(A\)的概率等于随机变量\(1_A\)的期望。

2.1. \(X\)是一个只取有限多个值的随机变量(相当于简单函数),那么设它只取\(x_1,\dots,x_n\in\mathbb{R}\)\(n\)个值,令\(A_i = \{\omega\in\Omega: X(\omega)=x_i\}\)我们有 \[X=\sum_{i=1}^n x_i 1_{A_i}\] 因此 \[\begin{aligned} \mathbb{E}X &= \mathbb{E}\sum_{i=1}^n x_i 1_{A_i} \\ &= \sum_{i=1}^n x_i \mathbb{E}(1_{A_i}) \\ &= \sum_{i=1}^n x_i \mathbb{P}(X=x_i). \end{aligned}\]

有了期望值之后,可以定义一系列基本的关于随机变量的不变量。我们定义随机变量\(X\)的方差,记为\({\rm Var}(X)\)或者\(\mathrm{D} X\),是指 \[{\rm Var}(X):= \mathbb{E}(X-\mathbb{E}X)^2\] 只要\(\mathbb{E}X_+,\mathbb{E}X_-\)至少有一个可积,那么由于方差里的\((X-\mathbb{E}X)^2\)是非负随机变量,这个积分总是有定义的(可以是\(\infty\)),但不一定有限。我们说\(X\)的方差存在,或者有方差,或者有二阶矩则是指它的方差有限(这蕴含了\(X\)可积)。

为了衡量两个随机变量的数值正相关性,我们通常引入如下协方差的概念,对于随机变量\(X,Y\),我们定义它们的协方差\[{\rm Cov}(X,Y)=\mathbb{E}(X-\mathbb{E}X)(Y-\mathbb{E}Y).\] 由Cauchy不等式\((\mathbb{E}fg)^2\le \mathbb{E}f^2 \mathbb{E}g^2\)显然有 \[|{\rm Cov}(X,Y)|\le \sqrt{{\rm Var}(X){\rm Var}(Y)}.\] 于是我们定义\(X,Y\)的相关系数为\(\frac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var}(X){\rm Var}(Y)}}\).这是一个\([-1,1]\)之间的实数,它反映\(X,Y\)之间的正相关性。

练习 2.1. \(X,Y,XY\in L^1\),证明\({\rm Cov}(X,Y)=\mathbb{E}(XY)-\mathbb{E}X \cdot\mathbb{E}Y\).

命题 2.1 (Markov不等式和Chebyshev不等式). 以下设\(a>0\).

  1. (Markov) 对于非负随机变量\(X\ge 0\),我们有 \[\mathbb{P}(X\ge a\mathbb{E}X)\le \frac{1}{a}.\]

  2. (Chebyshev) 对于任意随机变量,如果它的方差有限,那么 \[\mathbb{P}(|X-\mathbb{E}X| \ge a) \le \frac{{\rm Var}(X)}{a^2}.\]

Proof.

  1. \[\mathbb{P}(X\ge a\mathbb{E}X) = \mathbb{E}1_{X\ge a\mathbb{E}X} \le \mathbb{E}\left(\frac{X}{a\mathbb{E}X}\right) = \frac{1}{a}.\]

  2. 利用上述Markov不等式,取\(Y=(X-\mathbb{E}X)^2\)\[\mathbb{P}(|X-\mathbb{E}X|\ge a) = \mathbb{P}(Y\ge a^2) \le \frac{\mathbb{E}Y}{a^2} = \frac{{\rm Var}(X)}{a^2}.\]

 ◻

练习 2.2. 利用Markov不等式,说明,五倍于平均收入的人不超过\(1/5\). 给出一个直观理解。

条件与独立性

初等条件概率

\(A,B\in\mathcal{F}\)是两个事件,满足\(\mathbb{P}(B)>0\).那么定义 \[\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}\] 称作\(B\)发生时,\(A\)的条件概率。这可以理解为我们在已知事件\(B\)发生时,\(A\)发生的概率(可能)发生了变化。关于条件概率,有一个很简单但有用的式子

定理 2.1 (Bayes等式). \(\mathbb{P}(A),\mathbb{P}(B)>0\),我们有 \[\mathbb{P}(A|B)\mathbb{P}(B) = \mathbb{P}(A\cap B)= \mathbb{P}(B|A)\mathbb{P}(A).\]

Proof. 显然。 ◻

2.2. 这是一个著名的条件概率问题,小明有两个孩子,其中一个是女孩,请问另一个是男孩的概率是多少?(假定自然出生率各为\(\frac{1}{2}\),实际自然出生率与\(\frac{1}{2}\)稍微偏差了一点点.)

可设状态空间为\(\Omega=\{(b,b),(b,g),(g,b),(g,g)\}\)其中每一点都具有\(\frac{1}{4}\)的概率,那么相当于在问 \[\mathbb{P}(\{(b,g),(g,b)\}|\{(b,g),(g,b),(g,g)\}) = \frac{\mathbb{P}(\{(b,g),(g,b)\})}{\mathbb{P}(\{(b,g),(g,b),(g,g)\})} = \frac{2/4}{3/4} = \frac{2}{3}.\] 这个结论是正确的,但初看起来可能有些反直觉。

练习 2.3. \(\mathbb{P}(B)=1\),那么\(\mathbb{P}(A|B)=\mathbb{P}(A)\).

练习 2.4. 证明,若\(\mathbb{P}(B)>0\),那么 \[E\mapsto \mathbb{P}(E|B)\]\((\Omega,\mathcal{A})\)上的一个概率测度。

练习 2.5 (分布的分解,简单情形).

  1. 证明,若\(\mathbb{P}(B)\in (0,1)\), \[\mathbb{P}(A|B)\mathbb{P}(B)+\mathbb{P}(A|B^c)\mathbb{P}(B^c)=\mathbb{P}(A).\]

  2. \(Y\)是一个取值在可数个离散值\(y_i\)上的随机变量,满足每个离散取值\(y_i\)的概率\(\mathbb{P}(Y=y_i)>0\).那么证明 \[\sum_i \mathbb{P}(A|Y=y_i)\mathbb{P}(Y=y_i) = \mathbb{P}(A).\] 说明这如何将概率测度\(\mathbb{P}\)分解为了一些条件概率测度的加权和(加权和也是积分)。这是一个后面要讲到的测度的分解的例子 \[\mathbb{P}= \mathbb{P}_{|Y}\otimes \mathbb{P}_Y,\] 即在积分的意义下, \[\int_\Omega f(\omega)\mathbb{P}(\mathrm{d}\omega)=\int_\mathbb{R}\left(\int_\Omega f(\omega)\mathbb{P}_{|Y}(\mathrm{d}\omega|y) \right) \mathbb{P}_Y(\mathrm{d}y).\] 这里\(\mathbb{P}_{|Y}(A|y)=\mathbb{P}(A|Y=y)\)是一个’概率核’,即它关于\(A\)是测度,关于\(y\)是可测函数。

下面一个练习可能会让你们沉思一会

练习 2.6 (\(\bigstar\)). 小明有两个孩子,其中一个是在星期天出生的女孩,请问另一个是男孩的概率是多少? 换成\(3\)\(14\)日呢?改成’知道她的身份证号码’呢?

我们再举一个经典的’Bayes统计推断’的例子。

2.3 (Bayes统计推断). 某药物公司开发了一种疾病检测试剂,它对疾病的检测能力具有\(95\%\)的敏感度和\(99\%\)的确定度,即对阳性病例检测出阳性的几率为\(95\%\),而阴性病例有\(1\%\)的概率误判为阳性。假定该疾病在受试对象中的出现率为\(10^{-3}\),现在有一位受试对象被该检测试剂判断为阳性,那么该受试者实际患病的几率是多少?

\(\theta\)为实际是否患病的随机变量,\(y\)为检测结果的随机变量,分别取值\(1,0\)代表阳性和阴性。那么由条件概率公式, \[\mathbb{P}(\theta\in A | y\in B) = \frac{\mathbb{P}(y\in B| \theta\in A) \cdot \mathbb{P}(\theta\in A)}{\mathbb{P}(y\in B)}.\] 在这个式子中,\(\theta\)是我们想了解的对象,\(y\)是我们获得的数据和信息,\(\mathbb{P}(\theta\in A)\)叫做’先验分布’,代表我们在获得数据之前对\(\theta\)的了解;\(\mathbb{P}(y\in B| \theta\in A)\)叫’似然函数’,这个分布需要是已知的。\(\mathbb{P}(\theta\in A| y\in B)\)叫’后验分布’,代表获得信息之后我们对于想知道的对象的新的认识;而分母上的\(\mathbb{P}(y\in B)\)在Bayes统计推断中通常被忽略,因为它是一个归一化常数,可以由对分子积分得到。

那么,关于试剂的敏感度和确定度的信息就相当于我们的似然函数,关于疾病在受试者之间的分布就是先验,我们想知道的就是\(\theta\)的后验分布。本例中我们可以算出 \[\begin{aligned} \mathbb{P}(\theta=1|y=1) &= \frac{\mathbb{P}(y=1|\theta=1)\cdot \mathbb{P}(\theta=1)}{\mathbb{P}(y=1)}\\ &= \frac{0.95\cdot 10^{-3}}{\mathbb{P}(y=1|\theta=0)\mathbb{P}(\theta=0)+\mathbb{P}(y=1|\theta=1)\mathbb{P}(\theta=1)}\\ &= \frac{0.95\cdot 10^{-3}}{10^{-2}(1-10^{-3})+0.95\cdot 10^{-3}}\\ &\approx 0.0868 \end{aligned}\] 即由于该疾病在受试者中的密度远低于诊断的精密度,实际上有\(91.3\%\)的概率是假阳性。

练习 2.7. 接上例,计算\(\mathbb{P}(\theta=1|y=0)\).

练习 2.8. 假设某受试者做了两次独立的检测,结果为\(y_1=y_2=1\),求 \[\mathbb{P}(\theta=1|y_1=1,y_2=1).\]

事件的独立性

我们称事件\(A,B\in\mathcal{F}\)独立的,是指 \[\mathbb{P}(A\cap B) = \mathbb{P}(A)\cdot \mathbb{P}(B).\] 形象的来说,就是说已知\(B\)发生并不影响\(A\)发生的概率,即\(\mathbb{P}(A|B)=\mathbb{P}(A)\)(但这个式子中需要假定\(\mathbb{P}(B)>0\)故不作为定义使用),或者已知\(A\)发生并不影响\(B\)的概率。 有时记为\(A\perp\!\!\!\perp B\).

容易验证,\(A\perp\!\!\!\perp B\)能推出\(\{\varnothing, A, A^c, X\}\) 里每一个元素与 \(\{\varnothing, B, B^c, X\}\) 里每一个元素独立,即\(A\),\(B\)各自生成的\(\sigma\)代数互相独立。这启发我们定义,对于两个\(\sigma\)-代数\(\mathcal{F}\),\(\mathcal{G}\),如果对任意\(F\in \mathcal{F}\)\(G\in \mathcal{G}\) 总有 \(\mathbb{P}(F\cap G) = \mathbb{P}(F)\cap \mathbb{P}(G)\),我们就说\(\mathcal{F}\)\(\mathcal{G}\)独立,记作\(\mathcal{F}\perp\!\!\!\perp\mathcal{G}\).

练习 2.9. 验证,零测集和概率为\(1\)的集与任何事件都独立。

随机变量的独立性

对于一个随机变量\(X:\Omega\to \mathbb{R}\),或者一般的可测函数\(\Omega\to T\),我们说\(X\)生成的\(\sigma\)代数,记为\(\sigma(X)\),是指\(X^{-1}(\mathcal{B})\),即所有Borel集的原象\(\{f^{-1}(B)\subset \Omega: B\in \mathcal{B}\}\)构成的\(\sigma\)-代数(由于原象的性质,这显然是一个\(\sigma\)代数)。这个\(\sigma\)代数可以理解为所有与\(X\)直接关联的事件,里面包含所有形如\(\{X\in A\}\)这样的事件,\(A\in \mathcal{B}\).

我们说\(\Omega\to \mathbb{R}\)的两个随机变量\(X,Y\),或者更一般的,两个到一般拓扑空间的可测函数,是独立的,是指它们生成的\(\sigma\)-代数\(\sigma(X)\)\(\sigma(Y)\)独立。那么我们很容易想象,要验证独立性,应该只需对一部分Borel子集验证即可。

定理 2.2. 关于两个随机变量\(X,Y:\Omega\to \mathbb{R}\),以下说法等价

  1. 对任意实数\(a,b\in \mathbb{R}\)\(\mathbb{P}(X<a,Y<b) = \mathbb{P}(X<a)\mathbb{P}(Y<b)\).

  2. \(X\perp\!\!\!\perp Y\),即\(\sigma(X)\perp\!\!\!\perp\sigma(Y)\).

  3. \(\mathbb{E}f(X)g(Y)=\mathbb{E}f(X) \mathbb{E}g(Y)\)对任意\(f,g\)非负或\(f(X),g(Y)\)可积的Borel可测函数\(f,g:\mathbb{R}\to\mathbb{R}\)成立。

Proof.

  1. (\(1\Rightarrow 2\)):所有形如\(\{X<a\}\)的集合能生成\(\sigma(X)\),\(\{Y<b\}\)能生成\(\sigma(Y)\).因此可以推出\(\sigma(X)\perp\!\!\!\perp\sigma(Y)\).精确的说,固定任一个\(B_0=\{Y<b\}\),考虑 \[\{A|A\perp\!\!\!\perp B_0\}\] 我们知道它是一个包含了所有\(\{X<a\}\)\(\sigma\)代数,故\(\sigma(X)\perp\!\!\!\perp B_0\). 再固定任一个\(A_1\in \sigma(X)\),考虑 \[\{B|A_1\perp\!\!\!\perp B\}\] 我们知道它包含了所有\(\{Y<b\}\),并且是一个\(\sigma\)代数,因此包含\(\sigma(Y)\).这就证明了\(\sigma(X)\perp\!\!\!\perp\sigma(Y)\).

  2. (\(2\Rightarrow 3\)):对任意\(A\in\sigma(X),B\in\sigma(Y)\)\(\mathbb{P}(A\cap B)=\mathbb{P}(A)\mathbb{P}(B)\),而这就是 \[\mathbb{E}1_A 1_B = \mathbb{E}1_A \mathbb{E}1_B.\] 考虑\(f,g\)都是\(\mathbb{R}\)上的非负Borel简单函数,即 \(f=\sum c_i 1_{C_i}\)\(g=\sum d_i 1_{D_i}\) 那么\(f(X) = \sum c_i 1_{X\in C_i} = \sum c_i 1_{X^{-1}(C_i)}\), \(g(Y)=\sum d_i 1_{Y^{-1}(D_i)}\) 故有 \[\mathbb{E}f(X)g(X)= \mathbb{E}f(X) \mathbb{E}g(Y).\] 再由单调收敛定理知上式对任意非负Borel可测函数\(f,g\)成立。为方便记号,以下将\(f(X),g(Y)\)简记为\(f,g\).对于实可积函数的情形,从\(f,g\)可积推出\(f_+,f_-,g_+,g_-\)非负可积,那么由独立性以及我们刚证明的部分有 \[\mathbb{E}f_+ g_+ = \mathbb{E}f_+ \mathbb{E}g_+\] 从而知\(f_+g_+\)可积,同理\(f_+g_-,f_-g_+,f_-g_-\)也都可积。那么从 \[fg=(f_+g_++f_-g_-)-(f_+g_-+f_-g_+)\] 我们知道\(fg\)可积,故\(\mathbb{E}fg=\mathbb{E}f \mathbb{E}g\)对实可积函数也成立。容易证明对复可积函数也是成立的。

  3. (\(3\Rightarrow 1\)): 由于\(\sigma(X),\sigma(Y)\)中的所有集形如\(X^{-1}(A)\),\(Y^{-1}(B)\),取\(f=1_A,g=1_B\)即知\(X^{-1}(A)\perp\!\!\!\perp Y^{-1}(B)\).

 ◻

2.4 (三门问题). 这是一个曾经引发大众讨论的著名的问题:在一个电视节目中,你要在三个门中选择一个,有两个门后面是羊,而另一个门后面是大奖。当你选择好一个门准备开奖之后,主持人会为你打开一扇你没有选择的门里面有山羊的一扇门,然后问你:你要不要改选另一扇你和主持人都未选择的门?

事实上,这是一个典型的条件概率问题。并且问题的答案可能没有你想的那么简单。不妨设\(\{1,2,3\}\)是三个门的编号,设\(P,Y,C,A\)分别表示大奖,你,主持人选择的门,以及另一扇没选择过的门的编号的随机变量。那么在这个例子中,\(Y\perp\!\!\!\perp P\),但是\(C\)的选取却与\(P,Y\)不独立,而\(A\)则与\(P,C,Y\)都不独立。这里我们假定\(P\)的分布是在三个门之间没有偏好的,均匀的分布。 那么\(\mathbb{P}(Y=P)\)是什么?它就是你选中的门后面有奖的概率。注意到由于\(\mathbb{P}(C\neq P)=1\),对一个必然事件取条件概率不会改变原有的概率,由\(Y,P\)的独立性我们有 \[\begin{aligned} \mathbb{P}(Y=P|C\neq P)&=\mathbb{P}(Y=P) \\ &= \sum_i \mathbb{P}(Y=i,P=i) \\ &= \sum_i \mathbb{P}(Y=i) \mathbb{P}(P=i) \\ &= \frac{1}{3}\sum_i \mathbb{P}(Y=i) = \frac{1}{3}. \end{aligned}\] 也就是说,保留原来的门仍然是\(1/3\)的概率。同样的论证对于\(\mathbb{P}(A=P)\)\(\mathbb{P}(C=P)\)并不成立,不能误认为它们等于\(1/3\),因为\(A,P\)\(C,P\)并不独立。由于\(Y,A,C\)一定是\(\{1,2,3\}\)的一个置换,我们有 \[1_{Y=P}+1_{A=P}+1_{C=P}=1.\] 取期望得 \[\mathbb{P}(Y=P)+\mathbb{P}(A=P)+\mathbb{P}(C=P)=1,\] 从由\(\mathbb{P}(C=P)=0\)\(\mathbb{P}(A=P)=\frac{2}{3}\).

但是问题到这里还没有结束,仔细观察\(\mathbb{P}(Y=P|C\neq P)\),其含义是已知主持人选了一个没有大奖的门,然后问你要不要换另一扇主持人和你都没选过的门。这里我们相当于是闭着眼睛参加节目,即不知道主持人选的是什么门的情况下才能算出的概率。如果我们看到主持人具体选了哪扇门,即求\(\mathbb{P}(Y=P|C=k)\),情况可能会发生变化。注意\(Y,P\)虽然是在测度\(\mathbb{P}\)下独立的,但没有理由它们假定在条件测度\(\mathbb{P}(\cdot|C=k)\)下独立,即它们不一定条件独立,因为主持人对门的选取可能有所偏好。当他可以选两扇门时,有可能会对其中一扇更有偏好而不是在两扇门中间平均的选取。我们设 \[c_{k|ij}=\mathbb{P}(C=k|Y=i,P=j)\] 这里当\(i\neq j\)时显然有\(c_{k|ij}=1_{k\neq i,j}\),而\(i=j\)时则\(c_{k|ii}\)\(k\in \{1,2,3\}-\{i\}\)中的两点上的和为\(1\). 那么我们计算’后验分布’(这里\(i\neq k\)) \[\begin{aligned} \mathbb{P}(Y=P|C=k,Y=i)&=\mathbb{P}(P=i|C=k,Y=i)\\ &=\frac{\mathbb{P}(P=i,C=k,Y=i)}{\mathbb{P}(C=k,Y=i)}\\ &=\frac{\mathbb{P}(C=k|Y=i,P=i)\mathbb{P}(Y=i,P=i)}{\sum_{j}\mathbb{P}(C=k,Y=i|Y=i,P=j)\mathbb{P}(P=j,Y=i)}\\ &=\frac{c_{k|ii}\frac{1}{3}\mathbb{P}(Y=i)}{\sum_j c_{k|ij}\frac{1}{3}\mathbb{P}(Y=i)}\\ &=\frac{c_{k|ii}}{c_{k|i1}+c_{k|i2}+c_{k|i3}}\\ &=\frac{c_{k|ii}}{c_{k|ii}+1}. \end{aligned}\] 注意对之前的示性函数恒等式乘以\(1_{C=k,Y=i}\)然后取期望一样有 \[\mathbb{P}(Y=P|C=k,Y=i)+\mathbb{P}(A=P|C=k,Y=i)=1,\] 于是 \[\mathbb{P}(A=P|C=k,Y=i)=\frac{1}{c_{k|ii}+1}\ge \frac{c_{k|ii}}{c_{k|ii}+1}.\] 我们注意到,尽管主持人的偏好对该概率有影响,但是仍然是无脑换另一个门更好。举例来说明,如果主持人有’小数字偏好’,即当他可以在两扇门中选时,总是倾向于选择编号小的门,即\(c_{k|ii}=1_{\text{$k$是$i$之外较小的那个}}\),那么 \[\mathbb{P}(Y=P|C=3,Y=1) = \frac{c_{3|11}}{c_{3|11}+1}=0.\] 惊人的现象发生了,主持人的选择倾向极大的改变了该概率,因为在已知主持人存在倾向的情况下,主持人的行为透露了信息:如果\(Y=P\),他一定会选\(2\)号而不是\(3\)号。但如果你闭上了眼睛,没有得到这个信息,或者主持人没有倾向,即\(c_{k|ii}=\frac{1}{2}\),那就还是\(\frac{1}{3}\).

多个随机变量的独立性

我们说一族\(\sigma\)-代数\(\mathcal{F}_i\)是独立的,是指对任意有限个来自不同\(i\)的子集\(A_i\in \mathcal{F}_i\),都有 \[\mathbb{P}\left(\bigcap_{i} A_i\right) = \prod_{i} \mathbb{P}(A_i).\] 而一族随机变量是独立的,则是指它们对应的\(\sigma\)-代数独立。值得注意的是,这个要求强于假定它们两两独立。

练习 2.10. 找出\(\mathcal{F},\mathcal{G},\mathcal{H}\)两两独立,但它们作为一族\(\sigma\)-代数不独立的例子。

定理 2.3.

  1. \(\mathcal{F}_t\)是一族由集合\(T\)编号的互相独立的\(\sigma\)代数,\(f:T\to S\)是任一个集合的映射,那么 \[\bigvee_{t\in f^{-1}(s)}\mathcal{F}_t\] 是一族由\(S\)编号的互相独立的\(\sigma\)代数。这里\(\vee\)表示由右边所有\(\sigma\)代数生成的\(\sigma\)代数。

  2. \(\{\mathcal{F}_i\}_{i=1}^\infty\)互相独立等价于对任意\(n\), \[\sigma(\mathcal{F}_1,\dots,\mathcal{F}_n)\perp\!\!\!\perp\mathcal{F}_{n+1}.\]

练习 2.11. 如果\(X_i\)是有限个两两独立(没有假定互相独立)的随机变量,它们的方差收敛,那么证明 \[{\rm Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n {\rm Var}(X_i).\]

Kolmogorov 0-1律

下一个引理的证明十分简单,我们留作作业。

引理 2.1. 以下说法等价

  1. \(\mathcal{F}\perp\!\!\!\perp\mathcal{F}\).

  2. \(\mathcal{F}\)中只有零测和测度为\(1\)的集合。

  3. 任何\(\mathcal{F}\)可测函数都是a.s.常数。

满足该等价关系的\(\sigma\)-代数叫做平凡的。

定理 2.4 (Kolmogorov 0-1律). \(\mathcal{F}_i\)是一列可数的独立的\(\sigma\)-代数,令 \[\mathcal{F}_{\infty} = \bigcap_{n} \bigvee_{k\ge n}\mathcal{F}_k,\]\(\mathcal{F}_{\infty}\)是平凡的。

Proof.\(k\ge m\), \[\sigma(\mathcal{F}_n,\dots,\mathcal{F}_m)\perp\!\!\!\perp\sigma(\mathcal{F}_{>k})\] 出发,对右边\(k\ge m\)取交我们能得到 \[\sigma(\mathcal{F}_n,\dots,\mathcal{F}_m)\perp\!\!\!\perp\mathcal{F}_{\infty}\] 然后将\(m\)扩展到\(\infty\),有 \[\sigma(\mathcal{F}_{>n})\perp\!\!\!\perp\mathcal{F}_{\infty}\] 从而得到所需结论 \[\mathcal{F}_{\infty}\perp\!\!\!\perp\mathcal{F}_{\infty}.\] ◻

Kolmogorov 0-1律是一个关于独立性的非常有趣的结论,它说的是一列独立事件的尾巴必然是概率0或1,即只要一个事件只依赖于一列独立事件的尾巴,那么它只能以概率0或1发生。虽然它的证明看似简单,但导出的结论常常是非显然的。这也要归功于我们将独立性归结于\(\sigma\)-代数的系统性的理解。

2.5. \(X_i\)是一列独立的随机变量,那么 \[\sum_{i=1}^\infty X_i\] 要么几乎处处收敛,要么几乎处处发散。事实上,记\(\mathcal{F}_i=\sigma(X_i)\)是一列独立的\(\sigma\)-代数,那么表示这个和收敛的事件\(A\)可以分解为 \[A=\bigcap_{\epsilon = 1,\frac{1}{2},\frac{1}{3},\dots} \bigcup_{N\ge \epsilon^{-1}} \bigcap_{n>m>N} \left\{\omega\in\Omega:\left|\sum_{m<i\le n} X_i\right|<\epsilon\right\}.\] 可以看到,这的确是属于\(\mathcal{F}_\infty\)的可测集,从而由Kolmogorov 0-1律,\(\mathbb{P}(A)=0\)\(\mathbb{P}(A)=1\).

2.6. (Percolation Theory) 设平面上\(\mathbb{Z}^2\)是一个正方形网格,每条边都独立的具有概率\(p\)被连起来,概率\(1-p\)不连接。那么 \[\mathbb{P}(\text{存在无穷长的连通分支})\] 是一个与\(p\)有关的函数,直觉上看应该是随着\(p\)递增的(这是对的,当然,这并非显然)。由Kolmogorov 0-1律,它只能等于\(0\)或者\(1\).即这个函数当\(p\)增加时,会在某一临界点突然从\(0\)跳变到\(1\),而完全不会取\(1/2\)这样的值!

初等条件期望

我们知道,当\(\mathbb{P}(B)>0\)时,\(A\mapsto \mathbb{P}(A|B)\)构成一个测度。那么对这个测度进行积分的话,我们知道 \[\mathbb{P}(A|B)=\frac{\mathbb{E}1_A1_B}{\mathbb{P}(B)}\] 这提示我们\(\mathbb{E}(1_A|B)=\mathbb{E}(1_B1_A)/\mathbb{P}(B)\).利用简单函数逼近,单调收敛定理,在假定随机变量\(X\)可积时,这给出了条件期望的如下定义 \[\mathbb{E}(X|B):= \int_B X(\omega) \mathbb{P}(\mathrm{d}\omega|B) = \frac{\mathbb{E}1_BX}{\mathbb{P}(B)}.\] 特别的,如果\(Y\)是一个取值在可数个离散点\(y_i\)上的随机变量,满足\(\mathbb{P}(Y=y_i)>0\),那么可以定义 \[\mathbb{E}(X|Y=y_i):=\frac{\mathbb{E}1_{Y=y_i} X}{\mathbb{P}(Y=y_i)}.\] 我们发现,\(\mathbb{E}(X|Y=y)\)成为了一个关于\(y\in\{y_i\}\)的函数,暂时记该函数为\(f:\{y_i\}\to \mathbb{R}\),那么我们定义\(\mathbb{E}(X|Y)\)是如下一个复合的随机变量\(\Omega\to \{y_i\}\to \mathbb{R}\) \[\mathbb{E}(X|Y):= \mathbb{E}(X|Y=y)\circ Y = f(Y).\] 以下习题都假定\(Y\)满足初等条件期望所需的假设,即\(Y\)只取可数个离散值并且每个值的概率为正。

练习 2.12. 说明,(初等)条件期望是比(初等)条件概率更一般的对象。并且\((A,y)\mapsto \mathbb{E}(1_A|Y=y)\)可以看成一个双变元映射 \[\mu(\cdot,\cdot):\mathcal{A}\times \{y_i\} \to \mathbb{R}\] 其中该函数\(\mu\)满足:固定第一个变量时,\(\mu\)的第二个变量是可测函数。固定第二个变量时,\(\mu\)的第一个变量是概率测度。这样的二元映射\(\mu\)称作一个概率核(probability kernel).

练习 2.13. \(\sigma(Y)\)由所有形如\(\{Y=y_i\}\)的集合生成。证明随机变量 \(\mathbb{E}(X|Y)\)\(\sigma(Y)\) 可测的。说明,任何\(\sigma(Y)\)可测函数由\(Y\)的值完全决定,即形如\(f(Y)\).

练习 2.14. 证明,对于初等条件期望假设下的随机变量\(\mathbb{E}(X|Y)\),成立如下’全期望公式\[\mathbb{E}\left(\mathbb{E}(X|Y)\right) = \mathbb{E}X.\] 提示:利用 \[1=\sum 1_{Y=y_i}\]

练习 2.15 (\(\bigstar\)). \(X\)可积的假定下,说明\(\mathbb{E}(X|Y)\)是所有\(\sigma(Y)\)上可测函数中,最接近\(X\)的那一个。即在所有\(\sigma(Y)\)可测函数\(\{T_Y\}\)中,\(\mathbb{E}(X|Y)\)使得\(\mathbb{E}(T_Y-X)^2\)最小。

随机变量的分布律

对于一个实值随机变量\(X:\Omega\to \mathbb{R}\),利用\(\Omega\)上的概率测度\(\mathbb{P}\),它可以诱导一个\(\mathbb{R}\)上的测度\(\mu_X\),对任意Borel可测集\(A\subset \mathcal{B}(\mathbb{R})\) \[\mu_X(A):=\mathbb{P}(X^{-1}(A))=\mathbb{P}(X\in A).\] 容易验证上述确实定义了一个\((\mathbb{R},\mathcal{B})\)上的测度(这里\(\mathcal{B}\)是博雷尔可测集,不是拓扑基)。称之为随机变量\(X\)分布,或分布测度。类似的也可以定义一般可测函数\(f:\Omega\to S\)的分布,以及随机向量\(X=(X_1,\dots,X_n):\Omega\to \mathbb{R}^n\)\(\mathbb{R}^n\)上诱导的分布测度,通常称为\(X_1,\dots,X_n\)联合概率分布。在不引起混淆的情况下,我们有时也把分布测度记为\(\mathbb{P}_X\)或者\(\mathbb{P}(X)\),满足\(\mathbb{P}_X(A)=\mathbb{P}(X\in A)=\mu_X(A)\). 联合概率分布有时记为\(\mu_{X_1,\dots,X_n}\)或者\(\mathbb{P}_{X_1,\dots,X_n}\).特别地,对于随机变量\(X\)和实数\(x\in\mathbb{R}\),记 \[F_X(x):=\mu_X((-\infty,x])=\mathbb{P}(X\le x)\] 称为\(X\)分布函数(也叫累计分布函数)。我们说两个随机变量\(X,Y\)同分布的,如果他们在\(\mathbb{R}\)上的分布相等,即\(\mu_X=\mu_Y\).

2.7. 考虑扔一枚硬币的结果,即一个随机变量\(X\)满足 \[\mathbb{P}(X=1)=\mathbb{P}(X=0)=\frac{1}{2}.\] 那么\(X\)的分布为一个集中在\(\{0,1\}\)两点上的离散测度: \[\mu_X(A):=\left\{ \begin{array}{ll} 0 & 0,1\not\in A\\ \frac{1}{2} & 0\in A \text{或} 1\in A \text{恰有一个成立}\\ 1 & 0,1\in A. \end{array} \right.\] 其分布函数为 \[F_X(x)=\frac{1_{x\ge 0}+1_{x\ge 1}}{2}.\]

命题 2.2. \(X,Y\)同分布,即\(\mu_X=\mu_Y\)当且仅当它们的分布函数\(F_X = F_Y\)相等。

Proof. 如果\(\mu_X=\mu_Y\),那么显然 \[F_X(x)=\mathbb{P}(X\le x)=\mu_X((-\infty,x])=\mu_Y((-\infty,x])=F_Y(x).\]

反过来,如果\(F_X=F_Y\),那我们可以推出对任意区间\(I=(a,b]\),有\(\mu_X(I)=\mu_Y(I)\).而所有这些区间构成一个\(\pi\)类并且\(\mu_X(\mathbb{R})=\mu_Y(\mathbb{R})<\infty\),故由上一章测度的唯一性知道\(\mu_X=\mu_Y\). ◻

定理 2.5 (用分布计算积分). \(X\)是一个随机变量,它具有分布\(\mu_X\), \(f\)是一个Borel可测函数,使\(f(X)\in L^1(\mathbb{P})\)可积或者\(f(x)\in L^1(\mu_X)\)可积。那么 \[\mathbb{E}f(X) = \int_\mathbb{R}f(x) \,{\rm d}\mu_X.\]

Proof. 对于\(f=1_A\),等式变为 \[\mathbb{P}(X\in A) = \mu_X(A)\] 这显然是成立的。于是等式对非负简单函数成立,由单调收敛定理我们推知该等式对所有非负Borel可测函数\(f:\mathbb{R}\to \mathbb{R}\)成立。故对于可积函数\(f=f_+-f_-\)也成立,由此知对于复值函数也是同样成立的。 ◻

连续型分布

\(m\)\(\,{\rm d}x\)表示\(\mathbb{R}\)上的Lesbegue测度。如果一个随机变量的分布\(\mu_X\)\(m\)绝对连续,即\(\mu_X\ll m\),那我们就说\(X\)是一个连续型随机变量,对应的分布\(\mu_X\)称作连续型分布。根据Radon-Nikodym定理可知,存在非负可测函数 \(f_X:\mathbb{R}\to [0,\infty]\) 使得 \[\,{\rm d}\mu_X(x) = f_X(x)\,{\rm d}x.\] 其含义为,对任意Borel可测集\(A\subset \mathbb{R}\), \[\int_{A} 1\,{\rm d}\mu_X = \mu_X(A)=\int_{A} f_X(x)\,{\rm d}x.\] 此时称\(f_X(x)\)\(X\)概率密度函数。这个函数在相差一个Lesbegue-\(0\)测集的意义下是唯一的,给出这个概率密度函数就唯一确定了其分布。还可以算出,它的分布函数可以由概率密度函数的定积分给出 \[F_X(x) = \int_{(-\infty,x]} f_X(t) \,{\rm d}t=\int_{-\infty}^{x} f_X(t)\,{\rm d}t.\] 接下来我们举一些常见的连续型分布的例子。

均匀分布

所谓均匀分布,就是指\(\mathbb{R}\)上这样一个概率测度 \[E\mapsto \frac{m(E\cap [a,b])}{b-a}.\] 记为\(U(a,b)\),这里\(a<b\), \(m\)是Lesbegue测度。它的含义是,\([a,b]\)中的值出现的概率是均匀均等的。举例来说,我们常说’取一个\(0\)\(1\)的随机数’,就是指给一个服从均匀分布的随机变量\(X\),使得\(\mu_X = U(0,1)\). 显然,这个测度关于\(m\)是绝对连续的,因此可以写\(\,{\rm d}U(a,b) = 1_{[a,b]}\frac{\,{\rm d}x}{b-a}.\)

命题 2.3. \(X\)满足均匀分布\(X\sim U(a,b)\),那么 \[F_X(x) = \left\{\begin{array}{lc} 0& x<a\\ \frac{x-a}{b-a}& x\in [a,b]\\ 1& x>b. \end{array}\right.\] 以及 \[\mathbb{E}X = \frac{a+b}{2},\quad {\rm Var}X = \frac{(b-a)^2}{12}.\]

Proof. 关于\(F_X(x)\)的式子是显然的。我们来计算以下两个积分 \[\mathbb{E}X = \int x \,{\rm d}\mu_X = \int_{[a,b]} \frac{x}{b-a}\,{\rm d}x = \frac{a+b}{2}.\] \[\mathbb{E}X^2 = \int_a^b x^2\frac{1}{b-a}\,{\rm d}x = \frac{a^2+ab+b^2}{3},\] 从而 \[\begin{aligned} {\rm Var}(X) &= \mathbb{E}(X-\mathbb{E}X)^2 = \mathbb{E}X^2 - 2\mathbb{E}(X \mathbb{E}X) + (\mathbb{E}X)^2\\ &= \mathbb{E}X^2 - 2 (\mathbb{E}X)^2 + (\mathbb{E}X)^2\\ &= \mathbb{E}X^2 - (\mathbb{E}X)^2. \end{aligned}\] 上述简单的式子是计算方差的常用方法,在这里我们可以得到 \[{\rm Var}(X)=\frac{a^2+ab+b^2}{3} - \frac{a^2+2ab+b^2}{4} = \frac{a^2-2ab+b^2}{12} = \frac{(b-a)^2}{12}.\] ◻

指数分布

指数分布是指由概率密度函数 \[f(x) = \lambda e^{-\lambda x} 1_{x\ge 0}\,{\rm d}x\] 确定的分布,即如下关于\(m\)绝对连续的测度 \[E\mapsto \int_E \lambda e^{-\lambda x} 1_{x\ge 0} \,{\rm d}x.\] 记为\({\rm Exp}(\lambda)\),这里要求参数\(\lambda >0\).

命题 2.4. 设随机变量\(X\)服从指数分布\(X\sim \mathrm{Exp}(\lambda)\),那么 \[F_X(x) = (1-e^{-\lambda x})_+,\] \[\mathbb{E}X = \lambda^{-1},\quad {\rm Var}X = \frac{1}{\lambda^2}.\]

其证明是简单的微积分计算,故留作读者的练习。

2.8. 指数分布代表的是在时间轴上以概率密度\(\lambda\)均匀分布的点态事件之间的等待时间或者间隔时间。准确的讲,是密度为\(\lambda\)的Poisson过程的等待时间。举例来说明:全球坠机事件的发生可以看成是一个Poisson过程,其发生的可能性以密度为\(\lambda\)均匀分布在时间轴上,而指数分布就是随机变量\(T=\)从这一次空难开始,到下一次空难的时间间隔的分布。基于它的这个特性,它经常用来代表bug/故障发生的时间间隔等。指数分布的这个解释需要在弄清楚Poisson过程之后我们才能弄明白。

正态分布

关于均值\(\mu\),方差\(\sigma^2\)的正态分布是指由如下概率密度函数确定的分布 \[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.\] 记为\(N(\mu,\sigma^2)\).这个分布十分重要,其原因需要留到后面我们讲中心极限定理时才能知道。可以说这是自然界中最广泛存在的一类连续型分布之一。

命题 2.5. \(X\sim N(\mu,\sigma^2)\),那么 \[\mathbb{E}X = \mu,\quad {\rm Var}X = \sigma^2.\] 同时,随机变量\(S\sim N(0,1)\)满足的分布叫做标准正态分布,其分布函数记为\(\Phi(x):=F_S(x)\).那么我们有 \[F_X(x) = \Phi\left(\frac{x-\mu}{\sigma}\right).\]

Proof. 利用微积分中的结果 \[\int_\mathbb{R}e^{-\frac{x^2}{2}}\,{\rm d}x=\sqrt{2\pi}\] \[\int_\mathbb{R}xe^{-\frac{x^2}{2}}\,{\rm d}x=0\] 以及(这可由第一式将\(x\)换成\(x\sqrt{t}\)并对\(t\)求导得出) \[\int_\mathbb{R}x^2e^{-\frac{x^2}{2}}\,{\rm d}x=\sqrt{\frac{\pi}{2}}\] 并适当换元可得所需结论 \[\mathbb{E}X = \frac{1}{\sqrt{2\pi}\sigma}\int_\mathbb{R}x e^{-\frac{(x-\mu)^2}{2\sigma^2}}\,{\rm d}x = \frac{1}{\sqrt{2\pi}\sigma}\int_\mathbb{R}(x+\mu)e^{-\frac{x^2}{2\sigma^2}}\,{\rm d}x = \mu.\] \[\mathbb{E}(X-\mu)^2 = \frac{1}{\sqrt{2\pi}\sigma}\int_\mathbb{R}(x-\mu)^2 e^{-\frac{(x-\mu)^2}{2\sigma^2}}\,{\rm d}x = \frac{1}{\sqrt{2\pi}\sigma}\int_\mathbb{R}x^2e^{-\frac{x^2}{2\sigma^2}}\,{\rm d}x = \sigma^2.\] 对于后面的命题, \[\begin{aligned} F_X(x)&=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\,{\rm d}{x} \\ &= \int_{-\infty}^{x-\mu} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}\,{\rm d}{x} \\ &= \int_{-\infty}^{\frac{x-\mu}{\sigma}} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\,{\rm d}{x}\\ &= \Phi\left(\frac{x-\mu}{\sigma}\right). \end{aligned}\] ◻

Gamma分布

Gamma分布可以视为指数分布的一种形式上的推广,它通常用来作为一种单峰的非负随机变量的经验分布。其概率密度函数为 \[f(x):= 1_{x\ge 0} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1}e^{-\beta x},\quad \alpha>0.\] 这里 \[\Gamma(s):=\int_0^\infty t^{s-1}e^{-t}\,{\rm d}{t}\] 是Gamma函数。对应的分布记为\(\mathrm{Gamma}(\alpha,\beta)\). 特别的,当\(\alpha=1\)时,\(\mathrm{Gamma}(1,\beta) = \mathrm{Exp}(\beta)\).

Beta分布

Beta分布则通常用来作为限制在有界区间上的单峰的经验分布。其概率密度函数为 \[f(x):=\frac{1_{x\in[0,1]}}{B(\alpha,\beta)} x^{\alpha-1}(1-x)^{\beta-1},\quad \alpha,\beta>0.\] 这里 \[B(a,b):=\int_0^1 t^{a-1}(1-t)^{b-1} \,{\rm d}{t}=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\] 是Beta函数。对应的分布记为\(\mathrm{Beta}(\alpha,\beta)\).

离散型分布

离散型分布是指这样一种\(\mathbb{R}\)上的概率测度,它在且只在一些孤立点上取正的测度。这些点只能是至多可数个,因为不可数个正数加起来只能是正无穷而不可能是\(1\).事实上,设\(a_i>0\)是一族由集合\(I\)编号的正数,满足 \[\sum_{i\in I} a_i = 1.\] 那么设\(I_n =\{i\in I: a_i> 1/n\}\)我们有\(I=\bigcup_{n=1}^\infty I_n\)并且\(|I_n|<n\),从而\(I\)是可数的。于是我们可以说离散型分布是一个只集中在一个至多可数的点集 \(\{x_1,x_2,\dots\} \subset \mathbb{R}\) 上的概率测度,即满足 \[\sum_{i=1}^\infty \mu(\{x_i\}) = 1, \quad \mu(\{x_i\})\ge 0.\] 如果一个随机变量的分布\(\mu_X\)是一个\(\mathbb{R}\)上的离散概率测度,我们就称\(X\)是一个离散型随机变量。值得注意的是这个测度\(\mu_X\)是关于\(m\)互相奇异的。容易看出其分布函数为 \[F_X(x)=\sum_i 1_{x_i\le x}\mu(\{x_i\}).\]

接下来我们举一些常见的离散型分布的例子。

Bernoulli二项分布

假设你在投一枚不均匀硬币,每次投出正面的概率是\(p\in [0,1]\),那么\(n\)次独立的投掷产生的正面数量\(X_n\)的分布就是Bernoulli二项分布,其分布密度为 \[\mu_{X_n}(\{k\}) = \binom{n}{k}p^k (1-p)^{n-k}, \quad 0\le k\le n.\] 这个分布记作\(\mathrm{B}(n,p)\)或者\(\mathrm{Binom}(n,p)\). 具体的来说,如果令\(\Omega=\{(x_1,\dots,x_n)\}\)表示每次投掷构成的结果的状态空间,令\(Y_i(\omega) = x_i\)表示每次投掷的结果,那么利用\(Y_i\)之间的独立性,我们有 \[\begin{aligned} \mathbb{P}(X_n = k) &= \mathbb{P}\left(\bigcup_{1\le i_1<i_2<\dots<i_k\le n}\{Y_{i_1}=Y_{i_2}=\dots =Y_{i_k}=1, Y_{\text{others}}=0\}\right) \\ &= \sum_{1\le i_1<\dots <i_k\le n}\mathbb{P}(\{Y_{i_1}=Y_{i_2}=\dots =Y_{i_k}=1, Y_{\text{others}}=0\}) \\ &= \sum_{1\le i_1<\dots <i_k\le n}\prod_{r=1}^k \mathbb{P}(Y_{i_r}=1) \times \prod_{j\not\in \{i_r\}}\mathbb{P}(Y_{j}=0) \\ &= \sum_{1\le i_1<\dots <i_k\le n} p^{k} (1-p)^{n-k}\\ &= \binom{n}{k} p^{k} (1-p)^{n-k}. \end{aligned}\]

几何分布

几何分布可以理解为一种离散版本的指数分布,即相同概率的独立发生的离散事件之间的等待时间。举例来说明,在独立的投掷正面概率为\(p\)的硬币的时候,令随机变量\(G\)表示投到正面所需花的次数,那么\(G\)具有分布 \[\mu_G(\{k\}) = p(1-p)^{k-1},\quad k\ge 1.\] 精确的来说,考虑\(\Omega=\{\omega=(x_1,x_2,\dots,x_n,\dots):x_1\in \{0,1\}\}\) 为投硬币正面与否的无穷序列构成的状态空间,那么 \[G(\omega) = \inf (\{\infty\}\cup \{i: x_i=1\})\] 并设 \[X_i(\omega) = x_i\] 为独立的表示每次硬币的结果的随机变量。 注意\(G\)可以取值\(\infty\),但\(\{G=\infty\}\subset \{X_1=0,X_2=0,\dots,X_n=0\}\)对任意\(n\)成立,于是由独立性, \[\mathbb{P}(G=\infty)\le \mathbb{P}(X_1=0,\dots,X_n=0) = (1-p)^n \to 0\]\(\mathbb{P}(G=\infty) = 0\).而 \[\mathbb{P}(G=k) = \mathbb{P}(X_1=0,\dots,X_{k-1}=0,X_k=1) = p(1-p)^{k-1}.\]

Poisson分布

Poisson分布代表的是以一定频率发生的’稀有事件’的次数的分布,由于Poisson极限定律,这也是一个广泛存在的分布,具有很高的实用性。我们说参数为\(\lambda\)的Poisson分布的分布式为 \[\mu_X(\{k\}) = \frac{\lambda^k e^{-\lambda}}{k!},\quad 0\le k.\] 记为\(X\sim \mathrm{Poisson}(\lambda)\)\(\mathrm{Poi}(\lambda)\).其精确解释我们在后面讲到Poisson小数定律时才能解释清楚。举例来说明,假定一个地区平均每\(t_0\)年发生一起罕见灾难,那么灾难的发生频率为\(\frac{1}{t_0}\),时间\(t\)内平均发生\(\lambda=\frac{t}{t_0}\)次灾难,时间\(t\)内灾难发生的次数就服从参数为\(\lambda=\frac{t}{t_0}\)的Poisson分布。

常见分布总结

名称 记号 密度函数 \(\mathbb{E}X\) \({\rm Var}(X)\)
均匀分布 \(U(a,b)\) \(\displaystyle \frac{1_{[a,b]}}{b-a}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
指数分布 \(\mathrm{Exp}(\lambda)\) \(\displaystyle 1_{x\ge 0} \lambda e^{-\lambda x}\) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\)
正态分布 \(N(\mu,\sigma^2)\) \(\displaystyle \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)
Gamma分布 \(\mathrm{Gamma}(\alpha,\beta)\) \(\displaystyle 1_{x\ge 0}\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1}e^{-\beta x}\) \(\frac{\alpha}{\beta}\) \(\frac{\alpha}{\beta^2}\)
Beta分布 \(\mathrm{Beta}(\alpha,\beta)\) \(\displaystyle \frac{1_{x\in[0,1]}}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}\) \(\frac{\alpha}{\alpha+\beta}\) \(\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\)
二项分布 \(\mathrm{Binom}(n,p)\) \(\displaystyle \binom{n}{k}p^k(1-p)^{n-k},\, 0\le k\le n\) \(np\) \(np(1-p)\)
几何分布 \(\mathrm{Geom}(p)\) \(\displaystyle p(1-p)^{k-1},\, k\ge 1\) \(\frac{1}{p}\) \(\frac{2(1-p)}{p^2}\)
Poisson分布 \(\mathrm{Poi}(\lambda)\) \(\displaystyle \frac{\lambda^k e^{-\lambda}}{k!},\, k\ge 0\) \(\lambda\) \(\lambda\)

由于上述表格中关于期望和方差的简单的计算居多,我们不打算将所有计算过程写下来,感兴趣的读者可以自行去做。

收敛概念

测度的收敛

给定\(\mathbb{R}\)上一族测度\(\mu_i\),我们称它们弱收敛\(\mu\),如果对任意有界连续函数\(f\)都有 \[\int_\mathbb{R}f(x)\,{\rm d}\mu_i\to \int_\mathbb{R}f(x)\,{\rm d}\mu.\] 记作\(\mu_i\xrightarrow[]{w}\mu\).

随机变量的收敛

几乎处处收敛

假定我们给了一列随机变量\(\xi_1,\xi_2,\dots\),有很多种不同的概念来描述\(\xi_i\)如何收敛到某一个极限随机变量\(\xi\). 首先想到的是可测函数的逐点收敛,即对几乎每一点,都有\(\xi_i\to \xi\),或者说 \[\mathbb{P}\left(\omega\in \Omega:\xi_i(\omega)\to \xi(\omega)\right) = 1.\] 这时我们就说\(\xi_i\)几乎处处收敛\(\xi\),记为\(\xi_i\to \xi \,\, a.s.\)或者\(a.e.\) 不收敛的点至多构成一个零测集。我们容易推出以下关于几乎处处收敛的引理

命题 2.6. 如果\(\sum_{i}\mathbb{E}(|X_i-X|\wedge 1) <\infty\),那么\(X_i\to X\,\, a.s.\)

Proof. 如果\(\sum_i \mathbb{E}(|X_i-X|\wedge 1)<\infty\), 那么级数 \[\sum_i |X_i-X|\wedge 1\] 几乎处处收敛(有限).于是几乎处处有\(|X_i-X|\to 0\). ◻

依概率(测度)收敛

如果对任意\(\epsilon>0\)都有\(\mathbb{P}(|\xi_i-\xi|>\epsilon)\to 0\),我们就说\(\xi_i\)依概率收敛\(\xi\),也叫依测度收敛,记为\(\xi_i\xrightarrow[]{P}\xi\).

命题 2.7 (依概率收敛). 关于随机变量序列\(X_i\to X\)是否依概率收敛,以下说法等价

  1. \(X_i\xrightarrow[]{P} X\).

  2. \(\mathbb{E}\left(|X_i-X|\wedge 1\right)\to 0\).

  3. 对于任意子列\(X_{i'}\subset (X_i)\), 总存在一个\(X_{i'}\)的子列\(X_{i''}\)使得\(X_{i''}\to X\,\, a.s.\)

Proof.

  • \((1\Rightarrow 2)\) 如果依概率收敛,那么对任意\(\varepsilon>0\), 记\(A_i=\{|X_i-X|>\varepsilon\}\),有\(\mathbb{P}(A_\varepsilon)\to 0\).于是 \[|X_i-X|\wedge 1 \le 1_{A_i} + \varepsilon(1-1_{A_i})\] 可得 \[\limsup_{i\to \infty}\mathbb{E}(|X_i-X|\wedge 1)\le \lim_{i\to \infty}\mathbb{P}(A_i)+\varepsilon (1-\mathbb{P}(A_i)) = \varepsilon.\]\(\varepsilon\)的任意性得\(\limsup_{i\to\infty} \mathbb{E}(|X_i-X|\wedge 1) = 0\).

  • \((2\Rightarrow 3)\) 对任意子列,可选取进一步的子列\((X_{i''})\)使得和\(\sum \mathbb{E}(|X_{i''}-X|\wedge 1)\)收敛。那么根据之前的命题,该子列几乎处处收敛。

  • \((3\Rightarrow 1)\) 否则,设存在子列\(X_{i'}\)使得\(\mathbb{P}(|X_{i'}-X|>\varepsilon)>\delta>0\),那么根据假设,可以取一个进一步的子列\(X_{i''}\)使得\(X_{i''}\to X\) a.s.根据控制收敛定理, \[\delta<\mathbb{E}(1_{|X_{i''}-X|>\varepsilon}) \to 0,\] 这不可能。

 ◻

推论 2.1. \(X_i=a_i\)为常值随机变量的特殊情形,我们可以得到一个特殊的极限判别法,即\(a_i\to a\)等价于对任意子列\(a_{i'}\)都有进一步的子列\(a_{i''}\)使得\(a_{i''}\to a\).

推论 2.2. 几乎处处收敛能推出依概率收敛。

练习 2.16. 找出一个依概率收敛但不是几乎处处收敛的例子。

依分布收敛(弱收敛)

如果\(\xi_i\)的分布弱收敛到\(\xi\)的分布,即\(\mathbb{P}(\xi_i)\xrightarrow[]{w}\mathbb{P}(\xi)\),我们就说\(\xi_i\)弱收敛到\(\xi\)或者\(\xi_i\)依分布收敛\(\xi\),记作\(\xi_i\xrightarrow[]{d}\xi\).

命题 2.8. 关于依分布收敛,以下说法等价

  1. \(X_i\xrightarrow[]{d} X\).

  2. 对每一个\(\mu_X\)的连续点\(x\),即满足\(\mu_X(\{x\})=0\)的点,有\(F_{X_i}(x)\to F_X(x)\)

  3. 对每一个端点在\(\mu_X\)的连续点上的区间\((a,b]\),有\(\mu_{X_i}(a,b]\to \mu_X(a,b].\)

Proof.

  • \((1\Rightarrow 2)\) 取连续函数\(f_m\)满足\(f_m((-\infty,x])=1\), \(f_m((x+\frac{1}{m},\infty))=0\). 那么由依分布收敛的定义有 \[F_{X_i}(x)\le \int_{\mathbb{R}} f_m(t)\,{\rm d}\mu_{X_i} \to \int_\mathbb{R}f_m(t)\,{\rm d}\mu_{X} \le F_X\left(x+\frac{1}{m}\right).\]\(m\to \infty\)\[\lim F_{X_i}(x)\le F_X(x).\] 反过来,再考虑连续函数\(g_m\)满足\(g_m((-\infty,x-\frac{1}{m}))=1\), \(g_m([x,\infty))=0\),有 \[\lim F_{X_i}(x)\ge F_X\left(x-\frac{1}{m}\right).\] 利用\(\mu_X\)在点\(x\)处的连续性可得\(\lim_{m\to\infty} F_X(x-\frac{1}{m})=F_X(x)\).

  • \((2\Rightarrow 3)\)\(\mu_X(a,b] = F_X(b)-F_X(a)\)立得。

  • \((3\Rightarrow 1)\)\(D=\{x\in\mathbb{R}: \mu_X(\{x\})>0\}\),则由前面关于离散分布的论证知\(D\)是至多可数的。那么由于\(D-\mathbb{Q}=\{d-q:d\in D, q\in\mathbb{Q}\}\)也是至多可数的,存在一个实数\(t\)使得\(t\not\in D-\mathbb{Q}\),即\((\mathbb{Q}+t)\cap D=\varnothing\). 取整数的任一个枚举\(a_i\)(比如可取\(0,1,-1,2,-2,\dots\)),对任意正整数\(i,n\)定义区间 \[I_{i,n}=t+\left(\frac{a_i}{2^n},\frac{a_i+1}{2^n}\right],\] 由于任意有界连续函数\(f\),可以表示成两个有界非负连续函数的差,故只需对有界非负连续函数\(f\)证明即可。定义 \[\overline{f_n}(x):=\sum_{i} \left(\sup_{I_{i,n}} f\right) 1_{I_{i,n}}\quad \underline{f_n}(x):=\sum_{i} \left(\inf_{I_{i,n}} f\right) 1_{I_{i,n}}.\] 那么显然有 \[\underline{f_n}\le f \le \overline{f_n}.\] 并且由于连续性,这两列函数以单调的方式逐点收敛到\(f\).由函数\(1_{I_{i,n}}\)满足 \(\mu_{X_k}(I_{i,n})\to \mu_X(I_{i,n})\)以及\(f\)非负我们知道 \[\int \overline{f_n} \,{\rm d}\mu_{X_i}\to \int \overline{f_n}\,{\rm d}\mu_X, \quad \int \underline{f_n} \,{\rm d}\mu_{X_i}\to \int \underline{f_n}\,{\rm d}\mu_X.\] 这表明 \[\limsup \int f \,{\rm d}\mu_{X_i} \le \int \overline{f_n} \,{\rm d}\mu_X\] \[\liminf \int f \,{\rm d}\mu_{X_i} \ge \int \underline{f_n} \,{\rm d}\mu_X.\]\(n\to \infty\)并利用单调收敛定理(或控制收敛定理)可得 \[\int f\,{\rm d}\mu_{X_i} \to \int f\,{\rm d}\mu_X.\]

 ◻

命题 2.9.

  1. a.s.收敛\(\Rightarrow\)依概率收敛\(\Rightarrow\)依分布收敛。

  2. 如果\(X_i\xrightarrow[]{d} c\)依分布收敛到一个常数,那么\(X_i\xrightarrow[]{P} c\).

  3. 如果\(X_i\xrightarrow[]{d} X\)并且\(Y_i\xrightarrow[]{d} 0\),那么\(X_i+Y_i\xrightarrow[]{d} X\).

  4. 如果\(X_i\xrightarrow[]{d} X\)并且\(Y_i\xrightarrow[]{d} 0\),那么\(X_iY_i\xrightarrow[]{d} 0\).

Proof.

  1. a.s.收敛推出依概率收敛已经证明过了。现假定\(X_i\xrightarrow[]{P}X\), 对任意有界连续函数\(f\)考虑\(\mathbb{E}f(X_i)\)\(\mathbb{E}f(X)\).由于对任意\(\mathbb{E}f(X_i)\)的子列我们可以取子列使\(X_{i''}\to X a.s.\),此时由控制收敛给出\(\mathbb{E}f(X_{i''})\to \mathbb{E}f(X)\).这就证明了\(\mathbb{E}f(X_i)\)的极限是\(\mathbb{E}f(X)\).

  2. \(X_i\xrightarrow[]{d} c\)显然可以推出对任意\(\varepsilon>0\),当\(i\to \infty\)\(\mathbb{P}(|X_i-c|>\varepsilon_n)\to 0\),因为常值随机变量\(c\)只有一个不连续点,故有依概率收敛。反过来,我们在上一条已经证明了依概率收敛可以推出依分布收敛。

    • 我们先对仅在有界区间上非零的所有连续函数(即紧致支集连续函数)\(f\)证明\(\mathbb{E}f(X_i+Y_i)\to \mathbb{E}f(X)\).这是一个数列的极限,于是可以通过证过证明它的任意子列都有子列收敛到\(\mathbb{E}f(X)\)来证明该数列收敛到\(\mathbb{E}f(X)\).由\(Y_i\xrightarrow[]{d}0\Rightarrow Y_i\xrightarrow[]{P} 0\)依概率收敛,取任意子列\(i'\),存在进一步的子列\(Y_{i''}\xrightarrow[]{a.s.} Y\)

      由于\(f\)仅在有界区间上非零,\(f\)是一致连续的。即 \[\sup_{x\in \mathbb{R}}|f(x+y)-f(x)|\to 0\quad (y\to 0).\] 故由\(f\)有界以及控制收敛定理可得 \[\mathbb{E}|f(X_{i''}+Y_{i''}) - f(X_{i''})|\to 0 \quad ({i''}\to \infty).\] 而由定义\(\mathbb{E}f(X_{i''})\to \mathbb{E}f(X)\),显然有\(\mathbb{E}|f(X_{i''}+Y_{i''}) - f(X)|\to 0\).

    • 对于任意有界非负的连续函数\(f\ge 0\),考虑连续函数\(\varphi(x)=(1-|x|)_+\),利用显然的等式 \[1=\sum_{k\in \mathbb{Z}} \varphi(x-k)\] 我们可以将\(f\)写为至多可数个仅在有界区间上非零的连续函数的和\(f(x) = \sum_{k\in \mathbb{Z}} f(x)\varphi(x-k)\).由于该和是非负的,利用非负函数的积分可加性,\(f\)的有界性和控制收敛定理给出 \[\begin{aligned} \mathbb{E}f(X_i+Y_i) &= \sum_k \mathbb{E}f(X_i+Y_i) \varphi(X_i+Y_i-k) \\ &\to \sum_k \mathbb{E}f(X)\varphi(X-k) = \mathbb{E}f(X). \end{aligned}\]

    • 最后,对于任意有界连续函数,将它写为正部和负部的差,利用有界性可得所需结论。

  3. 与上一个证明类似,我们留作作业。

 ◻

Poisson小数定律

该定律一般是由特征函数(Fourier变换)得出的,但我们这里给出一个直接证明,一方面是因为可以作为我们刚刚学习的收敛概念的应用,另一方面弄清楚这个详细的过程会提升大家对这个现象的理解。

定理 2.6 (Poisson小数定律(简单版本)). \(X_{i,n}, 1\le i\le n\)是一列非负整数值随机变量,满足固定\(n\)时,\((X_{i,n})_{i=1}^n\)独立,并且存在非负实数\(\lambda\)使得\(n\to\infty\)时满足以下两个条件

  1. \(p_{i,n}:=\mathbb{P}(X_{i,n}=1)\), 有\(p_{i,n}=\frac{\lambda+o(1)}{n}\).这里余项\(o(1)\)需要在\(n\to\infty\)时对\(i\)一致,即要求存在一个非负函数\(\psi(n)\)使 \[\left|p_{i,n}-\frac{\lambda}{n}\right|\le \frac{\psi(n)}{n}\] 其中\(\psi(n)\to 0\).

  2. \(\sum_{i\le n}\mathbb{P}(X_{i,n}>1) \to 0\)

那么,随机变量\(X_n:=\sum_{i\le n} X_{i,n}\)依分布收敛于\({\rm Poi}(\lambda)\).

Proof. \[\begin{aligned} X_n &= X_{1,n}+\dots+ X_{n.n}\\ &= 1_{A_{1,n}}+\dots+1_{A_{n.n}}+Y_n\\ &= P_n+Y_n \end{aligned}\] 这里\(P_n=\sum_{i\le n}1_{A_{i,n}}\), \(A_{i,n}=\{X_{i,n}\ge 1\}\), \(Y_{n}=\sum_{i\le n} 1_{X_{i,n}\ge 2} (X_{i,n}-1)\). 由独立性我们计算对于\(n\ge k\) \[\begin{aligned} \mathbb{P}(P_n=k) &= \mathbb{P}\bigcup_{\genfrac{}{}{0pt}{1}{S\subset\{1,\dots,n\}}{|S|=k} } \left(\bigcap_{i\in S}A_{i,n} \cap \bigcap_{i\not\in S} A_{i,n}^c\right)\\ &= \sum_{\genfrac{}{}{0pt}{1}{S\subset \{1,\dots,n\}}{|S|=k}} \left(\prod_{i\in S} p_{i,n} \prod_{i\not\in S} (1-p_{i,n})\right)\\ &\le \binom{n}{k} \left(\frac{\lambda+\psi(n)}{n}\right)^k \left(1-\frac{\lambda-\psi(n)}{n}\right)^{n-k}\\ &\le \frac{n(n-1)\dots (n-k+1)}{k! n^k}(\lambda+\psi(n))^k e^{-n\frac{\lambda-\psi(n)}{n}}\\ &\le \frac{(\lambda+\psi(n))^ke^{-\lambda}}{k!} e^{\psi(n)}\\ &\to \frac{\lambda^k e^{-\lambda}}{k!} \quad n\to\infty. \end{aligned}\] 类似的,也有另一边的不等式 \[\mathbb{P}(P_n=k) \ge \frac{(\lambda-\psi(n))^k e^{-\lambda}}{k!} e^{-\psi(n)} \to \frac{\lambda^k e^{-\lambda}}{k!} \quad n\to\infty.\] 这表明\(\mathbb{P}(P_n=k)\to \frac{\lambda^k e^{-\lambda}}{k!}\),即\(P_n\xrightarrow[]{d} {\rm Poi}(\lambda)\).

对于\(Y_n\),由于 \[\mathbb{P}(Y_n>0) \le \sum_{i\le n} \mathbb{P}(X_{i,n}>1) \to 0\] 我们知道\(Y_n\xrightarrow[]{d} 0\). 于是我们得到\(P_n+Y_n\xrightarrow[]{d} {\rm Poi}(\lambda)\). ◻

大数定律

弱大数定律

测度的变换

内容概要:Fourier变换,Laplace变换,中心极限定理,Poisson极限定理(小数定律)。

条件期望

定义

我们已经定义了初等条件概率,这使得我们能谈论诸如\(\mathbb{P}(A|B)\), \(\mathbb{P}(X=x_i|Y=y_i)\), \(\mathbb{E}(X|Y=y_i)\)等条件概率和条件期望,并且条件概率可以看成是条件期望的一种特殊情形\(\mathbb{E}(1_{A}|B)\).但是这个式子需要\(\mathbb{P}(Y=y_i)>0\)时才有意义,否则完全就是意义不明的’非法操作’。那么如果我们面对的是连续型随机变量,每一点的取值上\(\mathbb{P}(Y=y_i)\)都等于零怎么办呢?现代概率论的一大重要突破就是将\(\mathbb{E}(X|Y)\)看成一个’信息弱化版’的\(X\).其意义为从\(Y\)能获得的信息里面你能获得的关于\(X\)的全部信息,即将它看成一个\(\sigma(Y)\)可测的随机变量而不是一个数,并在一般的\(\sigma\)-代数\(\mathcal{F}\)可测的意义下引入了条件期望\(\mathbb{E}(X|\mathcal{F})\).

在这个意义下,\(\mathbb{E}(X|\{\varnothing,\Omega\})=\mathbb{E}(X)\)是’信息最弱’版的\(X\),被弱化成了一个常数。而\(\mathbb{E}(X|\mathcal{A})=X\)是’未经弱化’的完全体,因为\(X\)\(\mathcal{A}\)可测的,所有信息都得到了保留,其条件期望还是它自己。

定义 4.1. 设\(X\)是一个随机变量,\(\mathcal{F}\subset \mathcal{A}\)是一个\(\sigma\)-代数,我们定义\(X\)条件期望\(\mathbb{E}(X|\mathcal{F})\)是指一个\(\mathcal{F}\)可测的随机变量,满足对任意\(A\in\mathcal{F}\)\[\mathbb{E}(1_A X) = \mathbb{E}(1_A \mathbb{E}(X|\mathcal{F})).\] 对于条件期望\(\mathbb{E}(X|\sigma(Y))\)我们经常直接记为\(\mathbb{E}(X|Y)\).

不妨先设\(X\)是非负的,如果记\(\mathbb{P}_\mathcal{F}\)\(\mathbb{P}\)限制在\(\mathcal{F}\)上得到的测度,那么上式按积分的意义理解,就是说 \[X\,{\rm d}\mathbb{P}= \mathbb{E}(X|\mathcal{F})\,{\rm d}\mathbb{P}_\mathcal{F}.\] 换句话说,条件期望\(\mathbb{E}(X|\mathcal{F})\)就是测度\(\mathcal{A}\ni A \mapsto \int_A X \,{\rm d}\mathbb{P}\)限制在\(\mathcal{F}\)上之后,在\(\mathbb{P}_\mathcal{F}\)下的Radon-Nikodym导数。由于左边的测度显然关于\(\mathbb{P}_\mathcal{F}\)绝对连续,由Radon-Nikodym定理我们知道这个函数是存在的,并且在至多相差一个\(\mathbb{P}_\mathcal{F}\)零测集的意义下唯一。对于一般可积的\(X\),我们可以通过作差得到条件期望的存在性。 为了看出\(\mathbb{E}(X|Y)\)的含义,我们先来看一个引理。

引理 4.1. \(X,Y\)是可测空间\((\Omega,\mathcal{A})\)上的两个可测函数\(\Omega\to \mathbb{R}\),满足\(Y\)\(\sigma(X)\)上可测的,那么 \[Y=f(X).\] 这里\(f:\mathbb{R}\to \mathbb{R}\)是Borel可测函数。

Proof. 首先我们注意到,如果\(Y\)是示性函数即\(Y=1_A\),那么\(Y\)\(\sigma(X)\)可测的等价于\(A\in\sigma(X)\Leftrightarrow A=X^{-1}(B)\),这里\(B\in \mathcal{B}(\mathbb{R})\) 那么\(Y=1_A = 1_B\circ X\), 故可取\(f=1_B\).

于是我们知道,命题对简单函数也成立。如果\(Y\)是非负的,利用简单函数逼近,和单调收敛定理我们知道存在Borel可测函数\(f\)使得\(Y=f\circ X\).对于一般的\(Y\),通过对\(Y=Y_+-Y_-\)取正负部并分别利用命题我们得到\(Y_+=f_+\circ X,Y_-=f_-\circ X\),即有\(f=f_+-f_-\)满足条件。 ◻

推论 4.1. 存在Borel可测函数\(f:\mathbb{R}\to\mathbb{R}\)使得 \[\mathbb{E}(X|Y)=f(Y)\]\(\mathbb{E}(X|Y)\)需要是一个\(Y\)的函数。我们可以将该函数记为\(f(y)=\mathbb{E}(X|Y=y)\)或者\(f(y)=\mathbb{E}(X|y)\).值得注意的是,由于\(\mathbb{E}(X|Y)\)在相差一个\(\mathbb{P}\)零测集的意义下唯一,该函数\(f\)也是在至多相差一个\(\mathbb{R}\)上的\(\mu_Y\)零测集的意义下唯一。(注意该’零测集’可能很’大’,比如\(Y\)的取值如果在\([0,1]\)之间,那么整个\([0,1]^c\)都是\(\mu_Y\)-零测集。)

条件分布

接下来的章节计划(考虑,顺序还没确定)

  1. 随机过程

  2. 鞅,选择停止定理

  3. Markov模型

  4. 统计推断

  5. 高维Gauss分布

  6. Brown运动与Ito微积分