应用随机过程复习笔记
名为复习,实为预习
11 天,从啥也不会到考试及格
课上只教了第一、二、三、五章。蓝色部分是笔者的 remark(可能理解有误)。
使用前建议:看完一章之后动手做一遍作业题,否则学不会。
作业 solution:https://www.ruanx.net/random-process-homework/
第一章 概率论补充
Ch1 公理化概率论
这一章节首先引入公理化概率论。
$\renewcommand\O{\Omega} \renewcommand\o{\omega}
\newcommand\F{\mathscr{F}} \renewcommand\F{\mathcal{F}}
\newcommand\sp{(\O, \F, P)}
\newcommand\dp{\displaystyle}
\def\pr#1{P\left ( #1 \right )}
\def\set#1{\left \{ #1 \right \}}
\def\many#1{#1_1,\cdots,#1_n}
\def\algn#1{\begin{aligned}#1\end{aligned}}
\def\i{{\infty}}
\def\ni{{-\infty}}
\def\zi{{+\infty}}
\def\w{{\omega}}
\def\bi{{[0, +\infty)}}
\def\ki{{(0, +\infty)}}
\def\X{{\bf{X}}}
\def\x{{\bf{x}}}
\def\Rn{{\mathbb{R} ^ n}}
\def\R{{\mathbb{R}}}
\def\rp{{\set{X(t), t\in T}}}
\def\iint{{\int_\ni^\zi}}
\def\cov{{\text{cov}}}
\def\Lim#1{{\underset{#1}{\text{l·i·m}} ~ }}
\def\LL{{\stackrel{L^2}{\longrightarrow}}}
\def\Limn{{\Lim{n\to\infty}}}
\def\an#1{{\langle #1 \rangle}}
\def\anx{{\an{X(t)}}}
\def\pij{{p_{ij}}}
\def\pijn{{p_{ij}^{(n)}}}
\def\BP{{\mathbf{P}}}
\def\fijx#1{{f_{ij}^{(#1)}}}
\def\fijn{{\fijx{n}}}
$
(样本、事件) 设 $\Omega$ 是某随机试验的所有可能结果形成的集合。
- $\Omega$ 称为样本空间或基本事件空间
- $\Omega$ 中的元素 $\omega$ 称为样本点或基本事件
- $\Omega$ 的子集 $A$ 称为事件。显然 $\O$ 也是一个事件(必然事件),$\varnothing$ 也是一个事件(不可能事件)
- 「事件是集合」,故事件之间可以进行运算(交、并、差,etc.)
例如,机器猫连抛两次硬币,一共有四个样本点 $(0, 0), (0, 1), (1, 0), (1,1)$。
它们的总集就是样本空间 $\O$。
考虑事件「至少抛出一个正面」,它包含三个样本点 $(0, 1), (1, 0), (1, 1)$。
(Borel域) 设 $\O$ 是集合,$\F$ 是 $\O$ 的某些子集组成的集族(aka. $\F \subseteq 2^\O$)。如果有:
- $\O \in \F$
- 若 $A\in\F$,则 $A^c \in \F$
- 若 $A_n \in \F, n=1,2,\cdots$,则 $\displaystyle\bigcup_{n=1}^{\infty} A_n \in \F$
则称 $\F$ 为 Borel 域或 $\sigma$-代数,$(\O, \F)$ 称为可测空间,$\F$ 中的集合称为随机事件,简称事件。
Borel域是为了方便我们「只考察关心的事件」,而非所有事件。
例如,机器猫连抛 100 次硬币,会产生 $|\O| = 2 ^ {100}$ 个基本事件,总共可能的事件个数是 $2^{2^{100}}$。
但如果我们只关心「有多少次正面朝上」,那么我们只需关心 $101$ 个小事件:$0$次正面、$1$次正面……$100$次正面。
上述第 2、3 条的意义是:如果我们把某事件纳入了考虑,那么与它相关的所有事情都要纳入考虑。这是类似于闭包的性质。
在我们这个例子中,既然我们把「$10$次正面」和「$20$次正面」纳入了考虑,那么我们必须把 「$10$次正面或$20$次正面」也纳入考虑。以此类推,以这 $101$ 个小事件为种子,扩增出的闭包大小是 $|\F| = 2^{101}$,这远远小于 $\O$ 中的事件总数。
教材中给了一个例子:考虑向数轴上的 $(0, 1)$ 区间随机掷一个点,那么其中每一个点都是基本事件,而所有点的集合——事实上这等于 $(0, 1)$——是样本空间。
可以作 $\F_1 = \{ (0, 1) 区间中的任意子集\}$,那么 $\F_1$ 构成一个 Borel 域。例如,$\{0.12, 0.45, 0.78\} \in \F_1$,其补集也在 $\F_1$ 内。
取一个集合 $G=\{\bigcup_{k=1}^n (a_k, b_k] \mid 0<a_k<b_k<1, k=1,2,\cdots, n, n\geq 1\}$,即 $G$ 为「所有左闭右开区间之有限和集」构成的集类,例如 $(0.1, 0.2] \cup (0.7, 0.8]$ 是 $G$ 中元素。明显 $G$ 不是一个 Borel 域,因为 $G$ 中可列无限个元素之和,可以是无限多个左闭右开区间的和;然而这样的和不是 $G$ 中的元素。不过,我们可以找出一个包含 $G$ 的最小 Borel 域 $\F_2$。数学上已经证明 $F_2$ 与 $F_1$ 并不重合,它的元素比 $F_1$ 中的少。
这个例子很抽象,笔者暂且认为:只要你能写出一个正整数 $n$,那么任意 $n$ 个左闭右开区间之和就在 $G$ 里面。然而,可列无穷个 $G$ 中元素之和,可以形成这样一个结果 $S$:其包含有可列无穷个左闭右开区间。那么此时,既然 $|S|$ 并非一个自然数,那么就找不到对应的 $n$,于是 $S$ 并不在 $G$ 里面。这与性质 3(可列可加性)冲突,于是 $G$ 并不是 Barol 域。
(Borel域的一些性质) 由定义易知:
- $\varnothing \in \F$
- 若$A, B\in \F$,则$A\setminus B \in \F$
- 若$A_i\in\F$,则 $\displaystyle \bigcup_{i=1}^nA_i,~ \bigcap_{i=1}^nA_i,~ \bigcap_{i=1}^\infty A_i \in \F$
如同上一个 remark 所说,这进一步表示了「如果我们把某事件纳入了考虑,那么与它相关的所有事情都要纳入考虑」。
显然 $2 ^ {\Omega}$ 是一个 Borel 域。显然 $\{\O, \varnothing\}$ 也是一个 Borel 域。
(概率的公理化定义) 设 $P(A)$ 是定义在样本空间 $\O$ 上的 Borel 域 $\F$ 上的稽核函数。若 $P(A)$ 满足:
- (事件的概率在 $[0,1]$ 之间)$\forall A\in \F$,有 $0\leq P(A)\leq 1$
- (必然事件和不可能事件)$P(\O) = 1, P(\varnothing) = 0$
- (可列可加性)若 $A_1, A_2,\cdots \in \F$ 两两不相交,则 $\displaystyle P\left(\bigcup_{i=1} ^ \infty A_i \right) = \sum_{i=1}^\infty P(A_i)$
则称$P$是Borel域上的概率。
事件 $A$ 的概率,是对应于 $A$ 的一个数。即:「事件的概率」是个集合函数,定义域为 $\F$,值域为 $[0, 1]$。
第 3 条性质,可参考知乎问答 如何理解概率中的可列可加性。注意这条性质是针对可列无穷个集合。
笔者将概率的公理化定义,理解为一个筛选器。
例如,我们考虑「抛一次硬币」这个事件,取 $\F = 2 ^\O = \{正, 反, 正或反,\varnothing\}$。
本来有很多种函数是定义在 $\F$ 上面的,例如 $$P(正)=233, P(反)=-123, P(正或反)=114, P(\varnothing) = 514$$概率的公理化定义把这些绝大部分乱七八糟的函数给筛掉了,而留下一些「可以作为概率」的函数,例如 $$P(正)=0.5, P(反)=0.5, P(正或反)=1, P(\varnothing)=0$$ $$P(正)=0.9, P(反)=0.1, P(正或反)=1, P(\varnothing)=0$$应当指出,一个函数可以作为概率,不代表现实情形就真的能与之 match 上。
(概率空间) 对随机试验$E$而言,样本空间$\O$给出了所有可能的实验结果,$\F$给出了由这些结果组成的各种各样的(我们关心的)事件,而 $P$ 给出了每个事件发生的概率。我们把 $(\O, \F, P)$ 称为概率空间。
(独立事件族) 设 $\sp$ 是概率空间,$G\subset \F$,如果对于任意 $A_1, A_2,\cdots, A_n \in G, n=1,2,\cdots$,有$$\pr{\bigcap _ {i=1} ^{\infty} A_i} = \prod _ {i=1} ^\infty \pr{A_i}$$则称 $G$ 是独立事件族。
例如,抛三次硬币,取 $\F = 2^\O$,取 $G=\{A_1: 第一次是正面, A_2: 第二次是正面, A_3:第三次是正面\}$,显然满足上述性质,例如 $P(A_1 \cap A_2) = P(A_1) P(A_2)$。所以 $G$ 是独立事件族。
Ch2 随机变量和概率分布函数
(随机变量) 设$\sp$是概率空间,$X = X(\o)$是定义在样本空间$\O$上的实函数,如果对于任意实数 $x$ ,有 $\O$ 中的子集 $$\set{\o:X(\o)\leq x} \in \F$$则称$X$是概率空间$\sp$上的随机变量。称$$F(x) = P\set{\o:X(\o)\leq x}, -\infty<x<\infty$$为 $X=X(\o)$ 的分布函数。
「随机变量」是一个函数,$X$是$X(\o)$的简写。
机器猫抛100次硬币,有$2^{100}$个样本点;取 $X(\o) = \o 中正面朝上的次数$。
若考虑$\F_1 = \set{恰好30次正面, 并非30次正面, \O, \varnothing}$,那么 $X$ 并非是 $(\O, \F_1, P)$ 中的随机变量。这是因为:$\set{\o : X(\o) \leq 2}$ 这个集合并不在 $\F_1$ 中。
不过,如果考虑 $\F_2$ 为包含 $\set{0次正面, 1次正面,\cdots,100次正面}$ 的最小 Borel 域,那么 $X$ 就是 $(\O, \F_2, P)$ 中的随机变量了。例如,$\set{\o: X(\o) \leq 2.5} = A_0 \cup A_1 \cup A_2 \in \F_2$。
此例中,分布函数 $F$ 是一个阶跃函数。分段区间是 $(-\infty, 0), [0, 1), [1,2), \cdots, [99, 100), [100, +\infty)$
(分布函数的性质) 分布函数具有以下性质:
- $F(x)$ 单调不减
- $F(x)$ 是右连续函数
- $\dp\lim_{x\to -\infty} F(x)=0, \lim_{x \to \infty} F(x) = 1$
这里的性质 2 值得注意。它要求 $F(x)$ 是右连续函数,即 $F(x+0) = F(x)$。它允许了我们前一个 remark 讨论的那个机器猫抛 100 次硬币例子中的阶跃函数 $F(x)$,因为除了 $(-\infty, 0)$ 以外,每个分段区间都是左闭右开。
常见的随机变量有两种类型:离散型随机变量和连续型随机变量。
离散型随机变量$X=X(\o)$的分布,可以通过分布列来描述,即$$p_k = \pr{\o: X(\o) = x_k}, k=1,2,\cdots$$显然,对应的分布函数是 $$F(x) = \sum_{x_k\leq x} p_k$$常见的离散型随机变量有二项分布、泊松分布、几何分布等。
连续型随机变量$X=X(\o)$的分布,可以通过分布密度$f(x)$描述。$X$的分布函数为:$$F(x)= \int_\ni^x f(t) dt$$
教材上提供了一张表格:
二项分布 $B(n, p)$:$n$ 个独立的成功/失败试验(aka. 伯努利试验)中成功次数的离散概率分布。
例如抛质地均匀的硬币 100 次,$X(\o)=正面朝上的次数$,则 $X\sim B(100, 0.5)$.泊松分布 $\pi(\lambda)$:描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数。$\lambda$ 为单位时间内发生次数的数学期望。
例如某机器平均每 24h 出 $0.01$ 次故障。以 $X(\o) = 样本区间内故障次数$,则 $X\sim \pi(0.01)$,或记为 $X\sim Pois(0.01)$。
若 $n$ 很大,$p$ 很小,而 $np$ 大小适中,可以利用泊松分布 $Pois(np)$ 来近似二项分布。参考讨论:https://www.zhihu.com/question/26441147几何分布 $G(p)$:在伯努利试验中,试验 $k$ 次才得到第一次成功的机率。即前 $k-1$ 次皆失败,第 $k$ 次成功的概率。
均匀分布 $U(a, b)$:在区间 $(a, b)$ 上概率相等。
正态分布 $N(\mu, \sigma^2)$:均值为 $\mu$,标准差为 $\sigma$。
指数分布 $Exp(\lambda)$:独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、电话打进客服中心的时间间隔、机器的寿命。其中 $\lambda$ 是单位时间内发生该事件的次数期望。
(n维随机变量及其分布) 设 $\sp$ 是概率空间,$\X=\X(\o) = (X_1(\o), X_2(\o),\dots, X_n(\o))$ 是定义在 $\O$ 上,在 $n$ 维空间 $\mathbb{R}^n$ 中取值的向量函数。每次试验后,$\X$ 取 $\mathbb{R}^n$ 中的一个点。若对于任意 $\x = (x_1,\dots, x_n) \in \mathbb{R}^n$ 有 $$\set{\o:X_1(\o)\leq x_1, \dots, X_n(\o) \leq x_n} \in \F$$则称 $\X=\X(\o)$ 为 $n$ 维随机变量或 $n$ 维随机向量。称$$F(\x) = F(x_1, \dots, x_n) = P\set{\o: X_1(\o)\leq x_1, \dots, X_n(\o) \leq x_n}$$为 $\X$ 的联合分布函数。
一维的分布函数相当于一维前缀和,$n$ 维的分布函数相当于 $n$ 维前缀和。
一个例子:抛 10 次硬币,取 $X_1$ 表示正面朝上的次数,取 $X_2$ 表示前五次抛掷内正面朝上的次数。
那么 $\X=(X_1, X_2)$ 是一个 $2$ 维随机向量,分布列如下:
(联合分布函数的性质) 联合分布函数 $F(\x)$ 拥有如下性质:
- 对于每个变元 $x_i$,$F(\x) = F(x_1, \dots, x_n)$ 单调不减。
- 对于每个变元 $x_i$,$F(\x) = F(x_1, \dots, x_n)$ 是右连续的。
- 对于 $\Rn$ 中任意区间 $({\bf{a}}, {\bf{b}}] = (a_1, b_1; \dots, a_n, b_n]$ 有$$\begin{aligned} F(b_1, \cdots, b_n) & - \sum_{i=1}^ nF(b_1,\cdots,b_{i-1},a_i,b_{i+1},\cdots,b_n) \\ & + \sum_{i,j=1, i<j}^n F(b_1,\cdots,b_{i-1},a_i,b_{i+1},\cdots,b_{j-1},a_j,b_{j+1},\cdots,b_n) \\ & + (-1)^nF(a_1,\cdots, a_n) \color{red} \geq 0 \end{aligned}$$
- $\dp \lim_{x_i\to\ni}F(x_1,\cdots,x_n) = 0, \lim_{x_i\to\i}F(x_1,\cdots,x_n) = 1, i=1,2,\cdots n$
这里第 3 条性质是容斥,思路与「利用前缀和求区间和」是一样的。
若 $\X(\o)$ 的每一个分量 $X_i(\o)$ 都是离散型随机变量,那么 $\X$ 是离散型随机向量。利用分布列来描述概率分布:$$p_{x_1,\cdots, x_n} = P\set{\o: X_1(\o)=x_1,\cdots, X_n(\o) = x_n}$$联合分布函数:$$F(y_1,\cdots, y_n) = \sum_{x_i\leq y_i} p_{x_1,\cdots, x_n}$$
若存在定义在 $\Rn$ 上的非负函数 $f(\x)$,对于任意 $\mathbf{y}=(y_1,\cdots,y_n)\in \Rn$,随机向量 $\X=\X(\o)$ 的联合分布函数为 $$F(\mathbf{y})=F(y_1,\cdots, y_n)=\int_{\ni}^{y_1}\cdots\int_{\ni}^ {y_n} f(x_1,\cdots,x_n)dx_1\cdots dx_n$$则称 $\X$ 是连续型随机向量,$f(\x)=f(x_1,\cdots,x_n)$ 是 $\X$ 的联合分布密度。
此处有个值得注意的点:是先有联合分布密度函数 $f(\x)$,再给它找出与之匹配的联合分布函数,而非反之。我们不能对着 $F(\X)$ 求导来定义其联合分布密度,因为它很可能不可导。例如一维均匀分布,$F(x)$ 在两个折点处不可导,但是显然可以找到一个分段函数 $f(x)$ 使得 $F(x) = \int_\ni ^xf(t)dt$,将 $f(x)$ 作为这个均匀分布的概率密度函数。
若将随机变量的概率分布视为总质量为 1 的质量分布,那么,随机变量的分布函数就是质量分布函数,分布密度就是质量分布密度,分布列就是质点系的质量分布。在这样的视角下,随机点落在一个区域内的概率,就是该区域的质量。
质心就是数学期望。
教材上给了 $dF$ 的定义:取值落在 $\x$ 附近微分区间的概率。
【例题】 设二维随机变量 $\X=(X_1, X_2)$ 的联合分布密度函数为$$f(\x) = f(x_1, x_2) = \frac{1}{2\pi}e ^ {-\frac12 (x_1 ^ 2 + x_2 ^ 2)}$$求下列随机变量的分布密度:$Y_1 = \sqrt{X_1 ^ 2 + X_2 ^ 2}$
【解】 对于 $Y_1$,我们设其分布密度为 $p_1(y_1)$。显然 $y_1\leq 0$ 时函数值为 $0$。 考虑 $ Y_1 $ 分布函数的微分 $$\begin{aligned}p_1(y_1) dy_1 &= P\set{\o: y_1< Y_1(\o) \leq y_1 + dy_1} \\ &= P\set{\o: y_1 < \sqrt{X_1^2 + X_2^2} \leq y_1 + dy_1}
\\ &= \frac{1}{2\pi}e ^ {-\frac{y_1 ^ 2}{2}}2\pi y_1 d y_1 \\ &= y_1 e ^{-\frac{y_1 ^ 2}{2}} d y_1\end{aligned}$$于是 $$p_1(y_1) = \begin{cases}y_1 e ^{-\frac{y_1 ^ 2}{2}}, & y_1 > 0 \\ 0, & otherwise\end{cases}$$
这个例题 PPT 上没有。笔者也不清楚他们怎么算出来的。要证明两个一维正态分布之和仍然是正态分布就有够费劲了,何况本题是求「标准二维正态分布样本与原点之距离」的分布。笔者选择摆烂不管了。
(独立性) 设 $\X=\X(\o)= \set{X_{t_i}(\o), t_i \in T}$ 是一族随机变量,若对于任意 $n\geq 2$ 和 $t_1,\cdots,t_n \in T$,$x_1,\cdots, x_n\in \mathbb{R}$,有$$P\set{\o:X_{t_1}(\o)\leq x_1,\cdots,X_{t_n}(\o)\leq x_n} = \prod_{i=1}^nP\set{\o: X_{t_i}(\o) \leq x_i}$$则称这一族随机变量$\set{X_{t_i}(\o), t_i\in T}$是独立的。
例如,抛 10 次硬币,前五次正面朝上次数 $X_1$ 与后五次正面朝上次数 $X_2$ 是独立的。但如果取 $X_3$ 表示全部 10 次实验中的正面朝上次数,那么 $X_1 $ 与 $X_3$ 不独立。
重要结论:若 $\X=\set{X_{t_i}(\o), t_i \in T}$ 是一族离散型随机变量,那么上式等价于 $$P\set{\o:X_{t_1}=x_1,\cdots,X_{t_n} = x_n} = \prod_{i=1}^nP\set{\o:X_{t_i} = x_i}$$
若 $\X=\set{X_{t_i}(\o), t_i \in T}$ 是一族连续型随机变量,那么上式等价于 $$f_{t_1\cdots t_n}(x_1,\cdots,x_n) = \prod_{i=1}^n f_{t_i}(x_i)$$
教材中讲,「独立性是概率论中的重要概念,可以说概率论或随机过程中任何重要的结果,都是在这种或那种独立性假设中得到的。在实际问题中,判断一族随机变量或一族随机事件是否独立,通常是根据直观的想法」。
例:设 $X_t$ 表示电话台在 $[0, t]$ 时间段内收到的电话个数。显然 $\X=\set{X_t, t\geq 0}$ 不是独立的,比如 $X_{5}$ 不可能比 $X_{3}$ 小。不过,如果我们用 $T_k$ 表示第 $k-1$ 次呼叫与第 $t$ 次呼叫之间的时间间隔,那么可以认为 $\set{T_k, k=1,2,\cdots}$ 独立。
Ch3 随机变量的数字特征
这一章节 PPT 上没有,可能老师假设学生早就会了。事实上笔者忘光了。
(数学期望) 设随机变量 $X$ 的分布函数为 $F(x)$,$\dp\int_\ni^\zi|x|dF(x)<\zi$,则称$$EX := \int_\ni^\zi x d F(x)$$为$X$的数学期望或均值。
若 $X$ 是离散型随机变量,分布列为 $$p_k=P(X=x_k), k=0,1,2,\cdots$$则此时$$EX = \sum_{k=0}^\zi x_kp_k$$
若 $X$ 是连续型随机变量,分布密度为 $f(x)$,则此时$$EX = \int_\ni^\zi xf(x)dx$$
若将随机变量的概率分布函数视为总质量为 1 的质量分布,那么随机变量的数学期望正好是质量分布中心。
这里给出了数学期望的计算方式。一般情况下应该不会需要使用到定义式来计算。
(方差) 设 $X$ 是随机变量,若 $EX^2<\zi$,则称$DX := E(X-EX)^2$ 为 $X$ 的方差。
方差表示随机变量取值的疏散程度。
(相关系数) 设 $X, Y$ 是随机变量,$EX^2<\zi, EY^2<\zi$。则称$B_{XY}:= E[(X-EX)(Y-EY)]$ 为 $X, Y$ 的协方差,而 $$\rho_{XY} := \frac{B_{XY}}{\sqrt{DXDY}}$$为 $X,Y$ 的相关系数。
若 $\rho_{XY}=0$,则称 $X,Y$ 不相关。相关系数 $\rho_{XY}$ 表示 $X,Y$ 之间线性相关程度的大小。
教材说:两个随机变量「不相关」和「独立」,在数学上是不同的,但在实际问题中很难区分。
(数学期望的一条性质) 设 $\X=\X(\o)=(X_1(\o),\cdots, X_n(\o))$ 是 $n$ 维随机变量,联合分布函数 $F(\x) = F(x_1,\cdots,x_n)$,$g(\x)=g(x_1,\cdots, x_n)$ 是 $n$ 元连续函数,则$$Eg(X_1, \cdots, X_n) = \int_\ni^\zi\cdots\int_\ni^\zi g(x_1,\cdots,x_n)d F(x_1,\cdots, x_n)$$
根据上述性质,立即可以得到以下结论:
Ch4 特征函数、母函数和拉氏变换
开摆!
Ch5 n维正态分布
开摆!
Ch6 条件期望
第二章 随机过程的基本概念
Ch1 随机过程及其概率分布
(随机过程概念) 现实世界中,有一些随机现象表现的是事物随机变化之过程,不能用随机变量或随机向量来描绘,而需要用一族(可列或不可列)无限多个随机变量描绘。这就是随机过程。
例1. 某人无限次重复丢硬币,要表示无限多次试验的结果。记正面为 1,反面为 0,第 $n$ 次投掷的结果是随机变量 $X_n$,显然对于每一个 $X_n$,其分布是 $P(X_n=0)=0.5, P(X_n=1)=0.5$。无限多次试验的结果是一个随机过程,用一族相互独立的随机变量 $X_1, X_2,\cdots$ 来表示,或记为 $\set{X_n, n\geq 1}$。
这是「可列无穷个随机变量」构成随机过程的例子。其中各个随机变量之间是独立的。
例2. 当 $t(t\geq 0)$ 固定时,电话交换站在 $[0, t)$ 时间内接到的呼叫次数是随机变量,记为 $X(t)$,有 $X(t)\sim P(\lambda t)$,其中 $\lambda$ 是单位时间内平均接到的呼叫次数。
若 $t$ 从 $0$ 变到 $\zi$,那么,时刻 $t$ 之前到来的呼叫次数需要用一族随机变量 $\set{X(t), t\in [0, \zi)}$ 表示,$X(t)$ 是一个随机过程。
对电话交换站作一次观察,可得到一条表示 $t$ 以前来到的呼唤曲线 $x(t)$ ,它为阶梯曲线,在有呼唤来到的时刻阶跃地增加。
这里有「不可列无穷个随机变量」。应当注意,各个随机变量之间不是独立的。
每一次观测,相当于从随机变量族 $X(t)$ 取了一个 sample $x(t)$。
在例1中的每一张散点图、例2中的每一条曲线,称为一个样本函数或一条样本曲线。
样本函数表示一次实验结果。对随机过程进行一次试验观察,出现的样本函数是随机的。
例3. 电子元件由于内部微观粒子的随机热运动所引起的端电压,称为热噪声电压。以电阻之热噪声电压为例,以 $\set{X(t), t\in[0, \zi)}$ 表示热噪声电压,每次试验得到的样本曲线是随机的。
例4. 具有随机初相位的简谐波 $X(t)=a\cos(\o_0 t+\Phi)$,其中 $a, \o_0$ 是正常数。已知 $\Phi \sim U[0, 2\pi]$。
当 $t$ 固定时,在不同的试验中,$X(t)$ 显然是随机变量(因为 $\varphi$ 的变动),所以 $t$ 变动所产生的 $\set{X(t), t\in R}$ 是一族无限多个随机变量,即随机过程。
对随机变量 $\Phi$ 做一次试验,得到一个试验值 $\varphi$,$x(t)=a\cos(\o_0t+\varphi)$ 就是一条样本曲线。
例5. 英国植物学家 Brown 发现液体表面的花粉微粒做无规则的运动,后来就称为 Brown 运动。以 $X(t), Y(t)$ 表示 $t$ 时刻花粉的位置,这是一个二维随机向量,我们得到 $\set{(X(t), Y(t)), t\in (0,\zi)}$
这里的 $(X(t), Y(t))$ 打包成了一个二维随机向量 $\mathbf{Z}$。样本函数即表示 $\mathbf{Z}$ 这个 vector 随着 $t$ 的变化。
(随机过程的定义) 设 $\sp$ 是一个概率空间,$T$ 是一个实数集。$\set{X(t, \o), t\in T, \o \in \O}$ 是对应于 $t$ 和 $\o$ 的函数,即为定义在 $T$ 和 $\O$ 上的二元函数。若此函数对任意固定的 $t\in T$,有 $X(t, \o)$ 是 $\sp$ 上的随机变量,则称 $\set{X(t, \o), t\in T, \o \in \O}$ 是随机过程。
随机过程在时刻 $t$ 的「状态」或「截口」:$\set{X(t, \o), t\in T, \o \in \O}$ 为一随机过程,在 $t$ 固定时,它是一个随机变量,随机过程 $X(t, \o)$ 在时刻 $t$ 的状态或截口。若 $\o$ 固定,它是 $t$ 的函数,称为随机过程的样本函数或样本曲线,亦称之为现实曲线。
样本曲线 = 基本事件。一旦样本曲线 $\o$ 选定,那么就得到了一个关于 $t$ 的确定性函数 $t \mapsto x(t, \o)$。
有很多种可能的样本曲线。所有的这些曲线,即全体样本函数 $\set{x(t)}$ 构成了样本空间 $\O$。
随机过程可以简写为 $\set{X(t), t\in T}$,省略掉样本空间 $\O$。此时样本函数用 $x(t)$ 表示,第 $i$ 次试验得到的样本函数记为 $x_i(t)$。随机过程为 $X(t)$,当 $t$ 固定时,为一个随机变量,即在 $t$ 时刻的截口。
随机变量 $X(\o)$ 是 $\o$ 的函数,表示基本事件 $\o$ 的特征。简写为 $X$。
随机过程 $X(t, \o)$ 是 $t, \o$ 的函数。其中一旦样本曲线 $\o=\o_0$ 确定下来,这个函数 $x(t, \o_0)$ 就是一个仅与时间 $t$ 相关的函数。以布朗运动为例,我们做一次试验,会获得一条运动轨迹 $\o_0$,这个轨迹就是一条「关于时间的函数」。做多次试验,可以获得轨迹 $\o_1,\o_2,\cdots$ 每次试验获得的轨迹都是一个基本事件。
关于截口的理解。以醉汉在实数轴上的的随机游走为例,我们若只观察 $t=10$ 时刻醉汉的位置 $Y=X(10)$,那么 $Y$ 是个随机变量。做很多次试验,得到不同的样本曲线 $\o$,针对这些不同的 $\o$,对应的 $y$ 也互异。
(随机过程的状态空间或值域) 随机变量 $X(t)$($t$ 固定,且 $t\in T$)的所有可能的取值构成一个实数集,称之为随机过程 $X(t)$ 的状态空间或值域,记为 $E$;每一个可能值称为一个状态。
随机过程的各个状态,即是 $X(t)(t\in T)$ 可能取的各个数值。
例1(无限次抛硬币),$T=\set{1,2,\cdots}$,状态空间 $E=\set{0, 1}$。
例2(电话呼叫计数),$T=\bi$,状态空间 $E=\mathbb{N}$。
例3(热噪声电压),$T=[0, \zi)$,状态空间 $E=\mathbb{R}$。
例4(随机初始相位的余弦波),$T=\mathbb{R}$,状态空间 $E=[-a, a]$。
例5(布朗运动),$T=[0, \zi)$,状态空间 $E=\mathbb{R}^2$。
笔者的理解:假设我们穷举所有的 $\o$,考察这些 $x(t)$ 的值域,合并起来得到状态空间。如下图所示,状态空间应该包含「任意一条样本曲线在任何时刻可能取到的值」。
(随机过程的分类) 根据 $T,E$ 为可列集或不可列集,可以分为以下四类:
- 离散参数,离散状态的随机过程。如例1,$T=\set{1,2,\cdots}, E=\set{0, 1}$
- 离散参数,连续状态的随机过程。例如独立标准正态随机变量序列,$T=\set{1,2,\cdots}, E=\R$
- 连续参数,离散状态的随机过程。如例2,$T=\bi, E=\set{0,1,2,\cdots}$
- 连续参数,连续状态的随机过程。如例3,$T=\bi, E=\R$
离散参数的随机过程,亦称为随机序列。例如:随机序列、平稳序列、非平稳序列。
$\o$ 取 $\o_0$ 时的样本函数 $x(t)=x(t, \o_0)$ 是 $T\to E$ 的映射;
随机过程 $X(t, \o)$ 是 $T\times \Omega \to E$ 的映射。
接下来讨论 有限维分布族。
(n维分布函数) 对于任意 $t_1,t_2,\cdots,t_n \in T$,有$$F(x_1, x_2,\cdots, x_n ; t_1, \cdots, t_n) = P\set{X(t_1)\leq x_1, \cdots, X(t_n) \leq x_n}$$称为随机过程 $X(t)$ 的 $n$ 维分布函数,描绘过程在任意 $n$ 个时刻状态的统计特性。
就是有 $n$ 个关心的时刻,针对这里面每个时刻的取值,给出一个上界。例如一维随机游走,取 $t_1=10, t_2=20, t_3=30$,则 $F(5, 5, 5; 10, 20, 30)$ 表示在 $t=10, 20, 30$ 时位置都不超过 5 的概率。
(n维分布密度) 可定义随机过程 $X(t)$ 的 $n$ 维分布密度:$$f(x_1, x_2\cdots,x_n ;t_1, t_2,\cdots, t_n)= \frac{\partial ^ n}{\partial x_1 \partial x_2\cdots\partial x_n} F(x_1,\cdots, x_n; t_1,\cdots, t_n)$$
(有限维分布函数族) 随机过程 $X(t)$ 的一维分布函数、二维分布函数……$n$ 维分布函数等的全体 $$\set{F(x_1,\cdots,x_n;t_1,\cdots,t_n): t_1,\cdots t_n\in T, n\geq 1}$$称为过程 $X(t)$ 的有限维分布函数族。
教材上给了两个性质:
对称性是显然的。至于相容性,笔者认为这是一种类似 padding 的手段:把一个低维的分布函数(等价地)提升到高维。
利用随机过程的统计特性(有限维分布族和数字特征)进行分类, 主要有两类随机过程:平稳过程与马尔可夫过程。
(Kolmogorov / 柯尔莫哥洛夫定理) 若给定参数集 $T$ 及分布函数族 $\set{F(x_1,\cdots, x_n; t_1,\cdots, t_n): t_i\in T, n\geq 1}$ 满足相容性条件,那么必定存在概率空间 $\sp$ 及定义于其上的随机过程 $\rp$,使得 $X(t)$ 的有限维分布函数族与上述给定的分布函数族是重合的。
笔者感觉这个定理属于「基础设施」,应该不至于需要直接用之来解题。
Ch2 随机过程的数字特征
先来讨论期望和方差。$\rp$ 在每一时刻 $t\in T$ 是一个随机变量,其期望和方差都是依赖于参数 $t$ 的函数。
(均值函数/均值) $\dp m_X(t) = EX(t) = \iint x d F(x, t), t\in T$,其中 $F(x, t)$ 是随机过程的一维分布。
$m_X(t)$ 的意义:指定一个时刻 $t$,此时截口 $X$ 是一个随机变量,其期望就是 $m_X(t)$。
$m_X(t)$ 表示随机过程的样本函数在 $t$ 时刻的状态的统计平均值,$m_X(t)$ 是一条固定的关于 $t$ 的曲线。
特别地,$\dp m_X(t) = \iint xf(x, t)dx, t\in T$,$f(x, t)$ 为连续分布,$m_X(t)$ 表示 $X(t)$ 所有样本函数在 $t$ 时的理论平均值,$m_X(t)$ 是一条固定曲线,且样本曲线围绕 $m_X(t)$ 曲线上下波动。
(方差函数/方差) $D_X(t) = D(X(t)) = E[X(t) - m_X(t)]^2, t\in T$
(标准差) $\sigma_X(t) = \sqrt{D_X(t)} = \sqrt{DX(t)}$
它们描绘样本曲线在各个时刻 $t$ 对均值曲线 $m_X(t)$ 的分散程度。
随机变量的期望是这个变量的均值,方差是样本偏离期望的程度。
随机过程的期望 $m_X(t) = EX(t)$ 是一条曲线,给出各个 $t$ 时刻的状态均值;
方差 $D_X(t) = D X(t)$ 和标准差 $\sigma_X(t)$ 给出各个 $t$ 时刻的样本状态偏离均值的程度。
(均方值函数/均方值) 定义 $\Psi_X(t) = EX^2(t)$
易知 $D X(t) = EX^2(t)-m_X^2(t) = \Psi_X(t) - m_X^2(t)$
证明:$$DX(t) = E[X(t) - m_X(t)]^2 = E[X^2(t) - 2m_X(t)X(t) + m_X^2(t)]$$这个期望里面 $m_X(t)$ 是常数,可以提出去:$$= EX^2(t) - 2m_X(t)EX(t) + m_X^2(t)$$又$EX(t) = m_X(t)$,故$$=EX^2(t) - 2m_X^2(t) + m_X^2(t) = EX^2(t) - m_X^2(t)$$得证。
事实上,对于单个随机变量 $X$,我们也早有结论 $D(X) = E(X^2) - [E(X)]^2$。
接下来讨论随机过程的协方差函数和相关函数。
(自协方差函数) 随机过程 $X(t)$ 的(自)协方差函数,即 $X(t_1)$ 与 $X(t_2)$ 的协方差:$$C_X(t_1, t_2) = \cov(X(t_1), X(t_2)) = E[X(t_1)- m_X(t_1)][X(t_2) - m_X(t_2)]$$也可表示为:$$C_X(t_1, t_2) = E[X(t_1)X(t_2)]-EX(t_1)\cdot EX(t_2)$$
(自相关函数) 随机过程的(自)相关函数:$$R_X(t_1, t_2) = E[X(t_1)X(t_2)]$$
【例题】随机相位正弦波 $X(t) = a\cos(\o_0t+\Phi)$,其中 $a, \o_0$ 是正常数,而随机变量 $\Phi\sim U[0, 2\pi]$,求 $X(t)$ 期望、方差和相关函数。
【解】期望:$$EX(t) = \iint a\cos(\o_0t+\varphi) \cdot f(\varphi) d \varphi$$由于 $\Phi \sim U[0, 2\pi]$,$$\begin{aligned}EX(t)&=\int_0^{2\pi} a\cos (\o_0t+\varphi) \cdot \frac1{2\pi} d \varphi \\ &=\frac{a}{2\pi} \int_{\o_t}^{\o_t + 2\pi} \cos u d u \quad (换元积分) \\ &= \frac{a}{2\pi} \sin u \bigg | _{\o_0 t} ^{\o_0 t + 2\pi} \\ &= 0\end{aligned}$$
再来求方差。$$DX(t)= E[X^2(t)] - (EX)^2 = E[X^2(t)]$$ $$=\int_{0}^{2\pi}a^2\cos ^2 (\o_0 t + \varphi)\frac1{2\pi}d\varphi \quad 利用公式 \cos^2\theta = \frac12 (\cos 2\theta + 1)$$ $$=\frac{a^2}{4\pi}\int_0^{2\pi}[\cos(2\o_0 t + 2\varphi) + 1] d \varphi$$ $$=\frac{a^2}{4\pi}\int_{2\o_0 t} ^ {2\o_0 t + 4\pi} (\cos u + 1)\frac12 d u \quad (换元积分)$$ $$=\frac{a^2}{2}$$
求自相关函数。$$R_X{(t_1, t_2)} = E[X(t_1) X(t_2)]$$ $$=E[a^2\cos(\o_0t_1 + \Phi) \cos(\o_0t_2 + \Phi)]$$ $$= a^2 \int _0 ^{2\pi} \cos (\o_0 t_1 + \varphi) \cos (\o_0 t_2 + \varphi) \frac1{2\pi} d\varphi \quad 积化和差$$ $$= \frac{a^2}{4\pi} \int _{0} ^{2\pi} \left [ \cos(\o_0t_1 + \o_0t_2 + 2\varphi) + \cos (\o_0t_1 - \o_0 t_2) \right ] d\varphi$$ $$= \frac{a^2}{4\pi} \left [ 2\pi \cos (\o_0t_1 - \o_0 t_2) + \int _0 ^{2\pi} \cos(\o_0t_1 + \o_0t_2 + 2\varphi) d\varphi \right ] \quad 换元积分,积出结果为 0 $$ $$= \frac{a^2}{2}\cos (\o_0t_1 - \o_0 t_2) $$
Done. 事实上,我们如果先求自相关函数,可以快速求出方差:$$DX(t) = C_X(t,t) = R_X(t, t) - m_X^2(t) = \frac{a^2}{2} - 0 = \frac{a^2}{2}$$
【例题】设随机过程 $X(t) = X + Y t + Z t^2$,其中 $X,Y,Z$ 为互相独立的随机变量,各自期望为 0,方差为 1. 求 $X(t)$ 的协方差函数。
【解】有$$C_X(t_1, t_2) = E[X(t_1)X(t_2)] - EX(t_1)\cdot EX(t_2)$$ 考虑到$$EX(t) = EX + t EY + t^2 EZ = 0+0+0 = 0$$于是$$C_X(t_1, t_2) = E[X(t_1)X(t_2)]$$ $$= E[(X+t_1 Y + t_1^2 Z) (X + t_2 Y + t_2 ^2 Z)] \quad 暴力展开 $$ $$ = E\left[ X^2 + t_2 XY + t_2^2 XZ + t_1XY + t_xt_2 Y^2 + t_1t_2 ^2 YZ + t_1^2XZ + t_1^2t_2 Y + t_1^2t_2^2 Z^2 \right]$$由于 $X,Y,Z$ 相互独立,故 $E(XY) = EX \cdot EY = 0$,显然 $E(YZ), E(XZ)$ 同理为零。于是$$ = E\left [ X^2 + t_1t_2 Y^2 + t_1^2t_2^2 Z^2\right ]$$由于 $DX = E(X^2) - (EX)^2 = E(X^2) = 1$,于是$$原式 = 1 + t_1t_2 + t_1^2 t_2^2$$Done.
【例题】给定一个随机过程 $X(t)$ 和常数 $a$,用 $X(t)$ 的相关函数表示随机过程 $Y(t)=X(t+a)-X(t)$ 的相关函数。
【解】$X(t)$ 的相关函数 $$R_X (t_1, t_2) = E[X(t_1) X(t_2)]$$
$Y(t)$ 的相关函数$$R_Y(t_1, t_2) = E[Y(t_1) Y(t_2)]$$ $$= E\left [ X(t_1+a)-X(t_1) \right ] \left [ X(t_2+a)-X(t_2) \right ] \quad 暴力展开$$ $$ = E\left [ X(t_1+a)\cdot X(t_2+a) - X(t_1+a)X(t_2) - X(t_1)X(t_2+a) + X(t_1)X(t_2) \right ]$$ $$ = R_X(t_1+a, t_2+a) - R_X(t_1+a, t_2) - R_X(t_1, t_2+a) + R_X(t_1, t_2)$$
Done.
接下来讨论正态随机过程。
(正态随机过程/高斯过程) 设 $T=\bi$ 或 $T=\R$,称随机过程 $X(t)$ 为正态随机过程,如果对于任意正整数 $n$ 及 $t_1,\cdots, t_n \in T$,$(X(t_1),\cdots, X(t_n))$ 是 $n$ 维正态向量。
$n$ 维密度函数:$$f(x_1, \cdots, x_n; t_1,\cdots, t_n) = \frac{1}{(2\pi)^{n/2} |\mathbf{C}|^{1/2}}\cdot \exp\set{-\frac12 (\mathbf{x} - \mathbf{m}_X)^T \mathbf{C}^{-1} (\mathbf{x} - \mathbf{m}_X)}$$其中 $$\mathbf{x} = \begin{bmatrix}x_1 \\ \vdots \\ x_n\end{bmatrix}, \quad \mathbf{m}_X = \begin{bmatrix}m_X(t_1) \\ \vdots \\ m_X(t_n)\end{bmatrix}$$而 $\mathbf{C}$ 为协方差矩阵 $$\mathbf{C}=\begin{bmatrix}C_X(t_1, t_1) & \cdots & C_X(t_1, t_n) \\ \vdots & & \vdots \\ C_X(t_n, t_1) & \cdots & C_X(t_n, t_n)\end{bmatrix}, \quad |\mathbf{C}| \neq 0$$
性质:正态随机过程的有限维分布密度函数族,被它的期望和协方差函数完全确定。
(定理) $\rp$ 是高斯过程的充要条件:它的任意有限个元 $X(t_1), \cdots, X(t_n)$ 的任意线性组合都是一个一维正态随机变量或常数。
【例题】设 $\xi$ 和 $\eta$ 为独立同分布的随机变量,且均服从标准正态分布 $N(0, 1)$,试求随机过程 $$\zeta = \set{\zeta(t) = t\xi + \eta, t\in R}$$ 的有限维分布。
【解】先求一维分布。有 $t\xi \sim N(0, t^2)$,故 $\zeta(t) = t\xi + \eta \sim N(0, t^2+1)$
现在考虑 $n$ 维分布 $\set{X(t_1), \cdots, X(t_n)}$。显然这是 $n$ 维正态随机向量,只需要期望和协方差即可描述。数学期望显然为 $(0, 0, 0,\cdots , 0) ^T$。而协方差函数,我们计算$$C_\zeta(t_1, t_2) = E[\zeta(t_1)\zeta(t_2)] - E\zeta(t_1)E\zeta(t_2) = E[\zeta(t_1)\zeta(t_2)] = E[(t_1\xi + \eta)(t_2\xi + \eta)]$$ $$=E[t_1t_2 \xi^2 + (t_1+t_2)\xi\eta + \eta^2] = t_1t_2 + 1$$
于是可以求出协方差矩阵:
Done.
教材的计算结果与笔者手算 $C_\zeta(t_1, t_2)$ 一致。但笔者没有弄明白为什么左边三个矩阵乘起来就可以得到协方差矩阵。
(二阶矩过程) 若随机过程 $\rp$ 的一、二阶矩存在,即$$EX(t) < \zi,\quad E[X^2(t)] < \zi$$则称 $X(t)$ 是二阶矩过程。
二阶矩过程的协方差函数 $C_X(t_1, t_2)$、相关函数 $R_X(t_1, t_2)$ 总是存在的。
高斯过程是二阶矩过程。
随机过程的相关理论: 从二阶矩过程数学期望和相关函数出发讨论随机过程的性质, 而允许不涉及它的有限维分布。这种理论称之为随机过程的相关理论。
可能是因为数值特征很好分析,但是有限维分布实在太难搞了。
(相关函数的两条性质)
协方差函数 $C_X(t_1, t_2)$ 也满足上述性质。
Ch3 复值随机过程
开摆!
PPT 上的 remark:
- 通常仅考虑实随机过程
- 随机过程的微积分和第三章平稳过程亦适用复随机过程
Ch4 随机微积分
在实际问题中,常涉及到随机过程的导数和积分,这些运算都是极限运算。就我们的目的而言,假定极限为均方意义下的极限就够了. 这是因为一般应用领域所涉及的过程大部分是二阶矩过程,并且均方收敛在数学上比其它收敛简单,存在有效的研究方法。
本节介绍随机过程在均方意义下的微分和积分。过程在均方意义下的极限、连续性、导数和积分的定义,在形式上与数学分析中相应的定义类似,其性质亦相同。常假设随机过程为二阶矩过程。
根据教材 pdf 上面神秘人士的笔记,这里的「均方」指的是均方值函数 $\Psi_X(t) = E|X(t)|^2 = R_X(t, t)$
(均方极限) 设 $\sp$ 为概率空间,随机序列 $\set{X_n, n=1,2,\cdots}$ 为其上的随机序列,且 $E|X_n|^2 < \zi, E|X|^2 < \zi$,若有$$\lim_{n\to \zi} E|X_n - X| ^ 2 = 0$$则称 $X_n$ 均方收敛于 $X$,而 $X$ 是 $X_n$ 的均方极限,记 $X_n \LL X$ 或 $\Lim{n\to\infty} X_n = X$
注1. $\lim$ 针对一般数列而言,而 $\text{l·i·m}$ 针对随机序列而言。
注2. 若 $X_n, X$ 为复随机变量,则 $|~\cdot~ |$ 表示模长。(实随机变量则表示绝对值)
这里的 $\text{l·i·m}$ 表示 limit in mean square。
(定理) 若 $\Lim{n\to\infty}X_n=X$,且 $\Lim{n\to\infty}X_n=Y$,则 $P(X=Y)=1$.
即:均方极限在概率为 1 相等的意义下唯一。
这话说得有够抽象。看了一些网上的资料,疑似可以这样理解:如果 $X_n \LL X$,那么这个 $X$ 几乎就是一个常量。说它「几乎」是常量,指的是 $P(X=c) = 1$。譬如讲:假设我搞一个随机序列 $X_n = 233 + \frac1nA$,其中 $A \sim U[1, 2]$,那么显然 $X_n\LL 233$。但是,现在我们拿出一个随机变量 $Z$,有 $Z$ 取 $233$ 的概率为 $1$,取 $666$ 的概率为 $0$ 但并非不可能事件。那么显然也有 $X_n\LL Z$。
按笔者的理解,「均方极限」就是让我们可以用一个简单的(甚至是常数的)随机变量 $X$ 去拟合随机序列在 $n\to\infty$ 时的表现,$\Lim{}$ 允许「极为微小」的误差。
(均方极限的性质)
- 极限与数学期望可交换顺序。若 $X_n\LL X$,则 $\dp\lim_{n\to\infty} EX_n=EX$。即$\dp\lim_{n\to\infty}EX_n = E[\Lim{n\to\infty}X_n] $
- 若 $X_m\LL X, Y_n \LL Y$,则 $\dp\lim_{m\to\infty, n\to\infty} EX_mY_n= EXY$
特别地,若 $X_n\LL X$,则 $\dp\lim_{m\to\infty, n\to\infty}E(X_mX_n) = EX^2$ - 若 $X_n\LL X, Y_n\LL Y$,则对常数 $a,b$ 有 $\Lim{n\to\infty}(aX_n + bY_n)= aX + bY$
- 若数列 $\set{a_n, n=1,2,\cdots}$ 有极限 $\lim_{n\to\infty}a_n = 0$,又 $X$ 是随机变量,则 $a_n X \LL 0$
- $\Limn X_n$ 存在,当且仅当 $\Lim{m\to\infty, n\to\infty}(X_m - X_n) = 0$
书上的一条 remark:
这上面给出了很多计算上十分好用的性质。
第四条的证明:$\dp \lim_{n\to\infty} E|a_n X - 0|^2 = a_n^2 E|X|^2 \to 0$,这里面应该用到了「$X$ 是二阶矩变量」的隐含假设。
接下来讨论均方连续性和均方导数。本节以后之内容参数集 $T$ 取为连续的, 如取 $[a,b], \bi$。
(均方连续性) 若随机过程 $\rp$,对固定的 $t_0\in T$ 有 $\Lim{t\to t_0}X(t) = X(t_0)$,即$$\lim_{t\to t_0}E|X(t) - X(t_0)|^2 = 0$$则称 $X(t)$ 在 $t_0$ 处均方连续。若 $X(t)$ 在 $T$ 中每一个 $t$ 处都连续,则称 $X(t)$ 在 $T$ 上均方连续。
(定理) $X(t)$ 在 $T$ 上均方连续,当且仅当其相关函数 $R_X(t_1, t_2)$ 在第一象限角分线 $\set{(t, t): t\in T}$ 的所有点上都连续。
感觉后者很可能比前者更好证,因为后者是一般微积分意义上的连续。
(均方可导) 若随机过程 $\rp$ 在 $t_0$ 处,下列均方极限$$\Lim{h\to 0}\frac{X(t_0 + h) - X(t_0)}{h}$$存在,则称此极限为 $X(t)$ 在 $t_0$ 处的导数,记为 $X^\prime(t_0)$,或 $\dp \frac{\text{d} X(t)}{\text{d}t} \bigg | _{t=t_0}$. 此时,称 $X(t)$ 在 $t_0$ 处均方可导。若 $X(t)$ 在 $T$ 中每个点 $t$ 上均方可导,则称 $X(t)$ 在 $T$ 上均方可导。此时均方导函数 $X^\prime(t)$ 为一个新的随机过程。
(均方导数的性质)
这里面第二条很重要,求导与期望可以交换次序,它将「随机过程的均方导函数之期望」,改成了「一个普通函数的导函数」。
注意到均方导数和普通导数的计算规则很类似。
(均方积分) 定义见下:
(均方积分的性质) 见下:
注1. 上述性质 1~5 可以推广到无限区间 $[a, \zi), (\ni,b], (\ni, \zi)$
注2. 均方斯蒂尔吉斯积分(Stieljes integration)亦可类似定义:$$\int_a^b f(t)dX(t)$$
第三章 平稳过程
Ch1 平稳随机过程的概念
考虑某纺织机所纺处的某一根棉纱,随着时间的演变,由于原料的质量,机器的性能,操作工的态度,以及环境温度湿度的改变等原因,工作条件不断发生变化,所以纺出纱的横截面的直径自然会有波动。但如果工作条件基本稳定,没有剧烈变化时,当我们同时观察 $n$ 根纱 $\w_1, \cdots, \w_n$,并以 $X(t, \w_i)$ 表示棉纱 $w_i$ 在 $t$ 时的横截面直径时,如果记 $G(t, x)$ 为 $t$ 时刻截面不超过定数 $x$ 的纱的个数与 $n$ 的比值,即$$G(t,x) =\frac{满足 X(t,\w_i)\leq x 的 i 的个数}{n}$$那么,对于充分大的 $n$,我们会观察到 $$\forall \tau,\quad G(t,x)\approx G(t+\tau, x)$$即这个比值是基本不变的。
(平稳随机过程) 设随机过程 $\rp$ 的有限维分布函数族为 $$\set{F(\many{x};\many{t}) ~ : ~ \many{t}\in T, n\geq 1}$$若对于任意 $n$ 和 $\many{t} \in T$,以及使得 $t_1+\tau, \cdots, t_n+\tau \in T$ 的 $\tau$,有$$F(\many{x}; \many{t})= F(\many{x}; t_1+\tau,\cdots,t_n+\tau)$$则称 $\rp$ 是平稳过程,亦称「严平稳过程」「强平稳过程」「狭义平稳过程」。
对于连续分布情形,上述条件可以换成$$f(\many{x};\many{t}) = f(\many{x}; t_1+\tau,\cdots,t_n+\tau)$$
$T$ 是离散集时,如取 $T=\mathbb{Z}=\set{\cdots, -2, -1, 0,1,2,\cdots}$,$\rp$ 是随机序列,可记为 $$\set{X(n), n=0, \pm1,\pm2,\cdots}$$这里 $\tau$ 应取整数。符合平稳随机过程定义的随机序列,称为平稳序列。
(弱平稳过程) 设 $\rp$ 的一、二阶矩存在,若有 $m_X(t) =m_X = 常数$,且满足 $R_X(t, t+\tau)= R_X(\tau)$ 与 $t$ 无关,则称 $\rp$ 为弱平稳过程,亦称「宽平稳过程」「广义平稳过程」。
(严平稳过程和宽平稳过程的关系)
- 严平稳过程不一定是宽平稳的。但对二阶矩过程,严平稳过程必定是宽平稳的
- 宽平稳过程一般推不出它是严平稳过程
对第一条性质的证明。对于任意 $\tau$,我们有 $$EX(t) = \int_\ni^\zi xdF(x;t) = \int_\ni^\zi xdF(x;t+\tau) = 常数 m_X$$ $$ \algn{R_X(t, t+\tau) &= E X(t)X(t+\tau) \\ &=\int_\ni^\zi\int_\ni^\zi x_1x_2 d F(x_1, x_2;t, t+\tau) \\ &= \int_\ni^\zi\int_\ni^\zi x_1x_2 d F(x_1, x_2;0, \tau) \\ &= R_X(\tau) 只与 \tau 有关 } $$
特殊地,正态过程的严平稳性与宽平稳性等价。
证明方法:利用「正态过程的有限维分布族完全由期望和协方差决定」这一性质。
(平稳过程的数字特征)
以下在一、二阶矩存在的情况下讨论。
数学期望:$$m_X(t_1)= EX(t_1) = \iint x_1 dF(x_1; t_1) = \iint x_1 d F(x_1, t_1 + \tau) = m_X(t_1+\tau) = m_X$$这是一个与 $\tau, t_1$ 都无关的常数。
相关函数:$$\algn{R_X(t_1, t_2) &= \iint \iint x_1 x_2 dF(x_1, x_2;t_1, t_2) \\ &= \iint\iint dF(x_1, x_2;t_1+\tau,t_2+\tau) \\ &= R_X(t_1 +\tau, t_2+\tau) \\ &= R_X(t_1-t_2) }$$常记$R_X(t_1+\tau, t_1)=R_X(\tau)$,与 $t_1$ 无关。
协方差函数:$$C_X(t, t+\tau) = R_X(t, t+\tau) - m_X(t)m_X(t+\tau) = R_X(\tau)-m_X^2 = C_X(\tau)$$与 $t$ 无关。
方差函数:$$D_X(t) = C_X(t, t)=C_X(0)= R_X(0) - m_X^2$$与$t$无关。
【例】设 $\set{X(n), n\in \mathbb{Z}}$ 为随机序列。其中 $X(n)$ 是两两不相关的随机变量,而 $EX(n) = 0, DX(n)=\sigma ^2$,则 $X(n)$ 是平稳随机序列,称之为离散白噪声。若 $X(n) \sim N(0, \sigma^2)$,则称之为正态白噪声。
这里非常的谔谔。笔者认为,离散白噪声只能说是宽平稳随机序列,例如 $$X(奇数)\sim N(0, \sigma^2), \quad X(偶数)\sim U[-\sqrt3 \sigma, \sqrt3 \sigma]$$ 完全符合离散白噪声的定义,但显然不是严平稳过程。
要证明是宽平稳序列,只需注意到下面两个值与 $t$ 无关:$$m_X(t) = 0$$ $$R_X(t, t+\tau) = EX(t)X(t+\tau) =\begin{cases}0, & \tau \neq 0 \\ \sigma^2, & \tau = 0 \end{cases}$$
看了几页书,感觉书上讲的平稳过程,默认是宽平稳过程。
正态白噪声倒肯定是严平稳过程。
【解】第一问。我们注意到 $$E_X(t) = \int_0^{2\pi} \sin ut dt = \frac{-1}{2\pi t}(\cos 2\pi t - 1)$$显然 $t\in \mathbb{Z}$ 时,$E_X(t)=0$ 为常量。再看相关函数 $$R_X(t, t+\tau) = EX(t)X(t+\tau) = E[\sin ut\cdot\sin (ut+u\tau)]\quad 积化和差 \sin\alpha\sin\beta =-\frac12 \left [\cos(\alpha +\beta) - \cos(\alpha-\beta)\right ]$$ $$=-\frac12 E\left[ \cos(2ut+u\tau) - \cos(u\tau) \right] = -\frac12 E\left[ \cos(2ut+u\tau)\right] + \frac12 E\left[ \cos(u\tau) \right]$$ $$ =-\frac1{4\pi} \frac{\sin[2\pi\cdot(2t+\tau)]}{2t+\tau} + \frac1{4\pi}\frac{2\pi\sin 2\pi\tau}{\tau}$$由于是随机序列,故 $\tau$ 只能取整数。显然 $t\in\mathbb{Z}$ 时,$R_X(t, t+\tau) = 0$ 与 $t$ 无关。证毕。
第二问。若 $t$ 取 $\mathbb{R}^+$,则 $E_X(t)$ 并非常数,故 $X(t)$ 甚至不是宽平稳过程。更不是严平稳过程。
Ch2 相关函数的性质
(自相关函数的性质) 平稳过程 $\rp$ 的自相关函数拥有如下性质:
- $R_X(0)=EX^2(t)\geq 0$
- $|R_X(\tau)|\geq R_X(0)$
- $R_X(\tau)$ 是偶函数,即 $R_X(\tau) = R_X(-\tau)$
- $R_X(\tau)$ 具有非负定性,即对于任意 $n$ 个实数 $\many{t}$ 和复数 $\many{Z}$ 有 $$\sum_{k=1}^n \sum_{j=1}^n R_X(\tau_j - \tau_k)Z_j \overline{Z_k} \geq 0$$
注:协方差矩阵 $C_X(\tau)$ 也具有以上性质。第一条改为 $C_X(0) = D_X(t) \geq 0$
(连续的平稳过程) 若平稳过程 $\rp$ 在 $T$ 上均方连续,则称 $X(t)$ 是 $T$ 上的平稳过程。
定理:平稳过程 $\rp$ 在 $T$ 上均方连续,当且仅当 $R_X(\tau)$ 在 $\tau=0$ 处连续,且此时 $R_X(\tau)$ 在 $T$ 上连续。
(互相关函数) 设两个平稳过程 $X(t), Y(t), t\in T$。互相关函数$$R_{XY}(t, t+\tau) = E[X(t)Y(t+\tau)]$$若互相关函数不依赖于 $t$,则称 $X(t)$ 与 $Y(t)$ 是平稳相关的,记为 $R_{XY}(\tau) = R_{XY}(t, t+\tau)$,此时,互协方差函数$$C_{XY} = R_{XY}(t, t+\tau) - m_X(t)m_Y(t+\tau) = R_{XY}(\tau)-m_Xm_Y$$显然它不依赖于 $t$,可记为 $C_{XY}(\tau)$。
(互相关函数的性质) 如下:
- $R_{XY}(-\tau) = R_{XY}(\tau)$
- $|R_{XY}(\tau)| \leq \sqrt{R_X(0)}\sqrt{R_Y(0)}$ (施瓦兹不等式)
这两条性质与自相关函数类似。互协方差函数 $C_{XY}$ 亦有这两条性质。
Ch3 各态历经性
平稳过程期望和相关函数通过试验近似确定的主要方法是进行多次试验得到多个样本函数,用在某个固定时刻(截口)的试验平均值去近似数学期望。
例如,做 $n$ 次试验,观察得到的样本曲线为 $x_1(t), x_2(t),\cdots,x_n(t)$,对于固定的 $t_1$,期望 $m_X=EX(t_1)\approx \frac1n\sum x_k(t_1)$
对应地,估计相关函数$$R_X(\tau) = E[X(t_1)X(t_1+\tau)] \approx \frac1n x_k(t_1)x_k(t_1+\tau)$$然而,按此法估测期望、方差和相关函数,需要 $n$ 个样本曲线,为了保证精度,$n$ 需要足够大。
事实上,工程上常常难以测量出足够多的样本曲线。考虑到平稳过程的随机特性是时间无关的,我们可以尝试仅利用一条样本曲线,去近似计算平稳过程的数学期望和相关函数等特征。
(时间平均) 设 $\set{X(t), \ni<t<\zi}$ 是平稳过程,若下面的均方极限存在:$$\anx = \Lim{T\to\zi}\frac1{2T}\int_{-T}^T X(t)dt$$则称为平稳过程 $X(t)$ 在 $(\ni,\zi)$ 上的时间平均。
(时间相关函数) 平稳过程 $X(t)$ 在 $(\ni,\zi)$ 上的时间相关函数:$$\an{X(t)X(t+\tau)} = \Lim{T\to\zi}\frac1{2T}\int_{-T}^T X(t)X(t+\tau)dt$$
相当于取遍所有的位置,以平均值为估测值。
时间平均求出的结果,常常是一个随机变量。
(各态历经性/遍历性)
若 $\pr{\anx = m_X} = 1$ 成立(可以记为 $\anx = m_X, ~ a.s.$),则称平稳过程 $X(t)$ 具有期望的各态历经性,即遍历性。
若对于固定的 $\tau$ 有 $\pr{\an{X(t)X(t+\tau)} = R_X(\tau)} = 1$ 成立,则称 $X(t)$ 具有相关函数的各态历经性,即遍历性。
$m_X$ 也被称为「空间平均」,它是随机过程的多个样本曲线在 $t_1$ 时刻的取值之平均值。因此,期望遍历性也就是「时间平均 almost 等于空间平均」
若 $X(t)$ 的均值和期望都具有各态历经性,则称该平稳过程具有各态历经性或遍历性。
若 $X(t)$ 是各态历经过程,那么 $\anx, \an{X(t)X(t+\tau)}$ 以 $1$ 的概率分别等于 $m_X, R_X(\tau)$。于是我们可以仅仅使用一条样本曲线的时间平均,去代表随机过程 $X(t)$ 的空间平均。
【例题】具有随机初相位的正弦波 $X(t)=a\cos(\w_0t+\Phi)$,其中 $a, \w_0$ 是正常数,$\Phi\sim U[0, 2\pi]$。试讨论 $X(t)$ 的各态历经性。
【解】考虑时间平均 $$\algn{\anx &= \Lim{T\to\zi} \frac{1}{2T} \int_{-T}^T X(t)dt \\ &= \Lim{T\to\zi} \frac{a}{2T} \int_{-T}^T\cos(\w_0t+\Phi) dt \\ &= \Lim{T\to\zi}\frac{a}{2T\w_0}\left[ \sin(\w_0T+\Phi)-\sin(-\w_0T+\Phi) \right] \\ &= 0 }$$ 又易知空间平均 $EX(t) = 0$.
时间相关函数可以通过一系列冗长的积分过程得到$$\an{X(t)X(t+\tau)} = R_X{\tau} = \frac{a^2}{2}\cos w_0\tau$$
故 $X(t)$ 具有遍历性。
一个平稳过程,需要添加什么条件,才能具有各态历经性?
(数学期望各态历经定理) 设 $\set{X(t), t\in\mathbb{R}}$ 是平稳过程,则 $$\anx = \Lim{T\to\zi}\frac1{2T}\int_{-T}^TX(t)dt=m_X,\quad a.s.$$ $$\Leftrightarrow \lim_{T\to\zi}\frac1T\int_0^{2T}(1-\frac{\tau}{2T})(R_X(\tau)-m_X^2)d\tau = 0 $$
下面这个式子是普通微积分,明显比定义式更容易计算。
立即可以得到如下推论:
(遍历性的一个充分条件) 若平稳过程 $X(t)$ 满足条件 $\dp\lim_{\tau\to\infty}R_X(\tau)=m_X^2$,即 $\dp\lim_{\tau\to\infty}C_X(\tau) = 0$,则 $\anx = m_X, ~ a.s.$
「时间间隔无限大时,两个状态的线性相关程度无限弱」的平稳过程,具备期望各态历经性。
下面讨论相关函数各态历经性。当 $\tau$ 固定时,相关函数 $R_X(\tau) = E[X(t)X(t+\tau)]$ 可以视为过程 $$\set{Y_\tau(t) := X(t)X(t+\tau), t\in\R}$$ 的数学期望。如果要对 $Y_\tau(t)$ 使用期望之各态历经性定理,需要 $Y_\tau(t)$ 是平稳过程。
可以证明,若 $X(t)$ 为强平稳过程,则 $Y_\tau(t)$ 亦为强平稳过程。但若 $X(t)$ 为宽平稳过程,则 $Y_\tau(t)$ 的数学期望为 $R_X(\tau)$ 与 $t$ 无关,但其相关函数 $$E[Y_\tau(t)Y_\tau(t+\tau_1)] = E[X(t)X(t+\tau)X(t+\tau_1)X(t+\tau+\tau_1)]$$涉及到 $X(t)$ 的四阶矩,但一般只假设 $X(t)$ 是二阶矩过程。所以,$Y_\tau(t)$ 的平稳性不能直接推出,需要作为假设条件。
(相关函数各态历经定理) 设 $\forall \tau, \set{X(t)X(t+\tau), t\in\R}$ 是平稳过程,则 $$\an{X(t)X(t+\tau)} = R_X(\tau), ~ a.s. $$ $$\Leftrightarrow \lim_{T\to\zi}\frac1T\int_0^{2T}(1-\frac{\tau_1}{2T})[B_\tau(\tau_1) - R_X^2(\tau)] d\tau_1 = 0$$其中 $B_\tau(\tau_1) = E[X(t)X(t+\tau)X(t+\tau_1)X(t+\tau+\tau_1)]$
以上给出了 $t\in \R$ 时的定理。下面,我们讨论对于 $t\in \bi$ 的情形,以及平稳序列。
(期望的各态历经定理:$0\leq t<\zi$ 情形) 设 $\set{X(t), 0\leq t<\zi}$ 是平稳过程。则$$\Lim{T\to\zi}\frac1T\int_0^T X(t)dt= m_X, a.s.$$ $$\Leftrightarrow \Lim{T\to\zi}\frac1T\int_0^T (1-\frac{\tau}{T})[R_X(\tau)-m_X^2]d\tau = 0$$
(相关函数的各态历经定理:$0\leq t<\zi$ 情形) 设 $\set{X(t), 0\leq t<\zi}$ 是平稳过程。则$$\Lim{T\to\zi}\frac1T\int_0^T X(t)X(t+\tau)dt= R_X(\tau), a.s.$$ $$\Leftrightarrow \Lim{T\to\zi}\frac1T\int_0^T (1-\frac{\tau_1}{T})[B_\tau(\tau_1)-R_X^2(\tau)]d\tau_1 = 0$$
对于这两个定理, PPT 和书上的表述有很大差别。书上的上述两个定理都是 $\Lim{}$,但教材上,期望的各态历经定理是 $\Lim{}$,相关函数的各态历经定理是 $\lim$。笔者暂且蒙在鼓里。
(期望的各态历经定理:平稳序列情形) 设 $\set{X(n), n=0,1,2,\cdots}$ 是平稳序列,则$$\Lim{T\to\zi}\frac{1}{n+1}\sum_{j=0}^n X(j) =m_X, ~ a.s.$$ $$\Leftrightarrow \lim_{n\to\zi}\frac1{n+1}\sum_{j=0}^n(1-\frac{j}{n+1})[R_X(j) - m_X^2] = 0$$
(相关函数的各态历经定理:平稳序列情形) 设 $\set{X(n), n=0,1,2,\cdots}$ 是平稳序列,则$$\Lim{T\to\zi}\frac1{n+1}\sum_{j=0}^nX(j)X(j+m)=R_X(m),~ a.s.$$ $$\Leftrightarrow \lim_{n\to\zi}\frac1{n+1}\sum_{j=0}^n(1-\frac{j}{n+1})[B_m(j) - R_X^2(m)] = 0$$
PPT remark:遍历性定理的重要价值在于:它从理论上说明了平稳过程只要满足定理的条件,便可以从一次试验所得过程 $X(t)$ 的样本函数来确定该过程的均值和自相关函数。
Ch4 平稳过程的谱密度
所谓相关函数的谱分解,即将之表示为傅里叶积分的形式。
(维纳-辛钦定理) 设连续平稳过程 $\set{X(t), t\in\R}$ 的相关函数是 $R_X(\tau)$,则 $R_X(\tau)$ 可表示为 $$R_X(\tau) = \frac1{2\pi} \iint e^{i\tau\w}d\widetilde F(\w), \quad \ni < \tau < \zi$$其中 $\widetilde F(\w)$ 是有界非降函数,且 $\widetilde{F}(\ni)=0, \widetilde{F}(\zi)=2\pi R_X(0)$。此公式称为维纳-辛钦公式,它给出了 $R(\cdot)$ 为均方连续平稳过程之相关函数的充要条件。
笔者决定和解,把这套理论当做黑盒使用。
上式中的 $\widetilde{F}$ 称为平稳过程 $X(t)$ 的(自)谱函数。若存在非负函数 $S_X(\o) $ 使得$$\widetilde{F}(\w)= \iint S_X(\o)d\w , \quad \ni<\o<\zi$$则称 $S_X(\o)$ 是平稳过程 $X(t)$ 的(自)谱密度。
注:$S_X(\w)$ 是 $R_X(\tau)$ 的傅里叶变换,而 $R_X(\tau)$ 是 $S_X(\o)$ 的逆傅里叶变换。
若我们有 $\iint |R_X(\tau)| d\tau < \zi$,则有
$$R_X(\tau)= \frac1{2\pi} \iint e^{i\o\tau}S_X(\o)d\o, \quad \ni<\tau<\zi$$ $$S_X(\o)= \iint e^{-i\o\tau}R_X(\tau)d\tau, \quad \ni<\o<\zi$$
以上给出了 $R_X(\tau)$ 和 $S_X(\o)$ 之间的关系。估计以后就拿着欧拉公式展开之后积分。
(平稳随机序列的情形) 设平稳随机序列 $X(n), n\in\mathbb{Z}$ 的相关函数为 $R_X(m)$,则$$R_X(m) = \frac1{2\pi} \int_{-\pi}^\pi e^{im\o} d\widetilde{F}(\o), \quad m=0,\pm1,\pm2,\cdots$$其中 $\widetilde{F}(\o)$ 是 $[-\pi, \pi)$ 上的有界非降函数,且 $\widetilde{F}(-\pi) =0, \widetilde{F}(\pi)=2\pi R_X(0)$。
式中的 $\widetilde{F}(\o), \w\in[-\pi, \pi)$ 称为平稳序列的(自)谱函数。若存在非负函数 $S_X(\w)$ 使得 $$\widetilde{F}(\w)=\int_{-\pi}^\pi S_X(\w)d\w, -\pi\leq \w < \pi$$则称 $S_X(\w)$ 为平稳序列 $X(t)$ 的(自)谱密度。
若有 $\sum_{m=\ni}^{\zi}|R_X(m)|< \zi$,则$$R_X(m)=\frac1{2\pi} \int_{-\pi}^\pi e^{im\w}S_X(\w)d\w,\quad m=0,\pm1,\pm2,\cdots$$ $$S_X(\w)=\sum_{m=\ni}^\zi e^{-im\w}R_X(m), \quad -\pi\leq \w<\pi$$
(功率谱密度的物理意义) 与我无关,开摆!
(谱密度的性质) 如下:
- 谱密度 $S_X(\w)$ 是实的、非负的偶函数。
- 相关函数 $R_X(\tau)$ 与功率谱密度 $S_X(\w)$ 之间的关系亦可用实函数积分表示:$$S_X(\w) = 2\int_0^\zi R_X(\tau) \cos \w\tau d\tau$$ $$R_X(\tau)= \frac1\pi \int_0^\zi S_X(\w)\cos\w\tau d\w$$
- 工程上还用单边功率谱密度,定义为 $$G_Z(\w) = \begin{cases}2S_X(\w), & w\geq 0 \\ 0, & \w < 0\end{cases}$$
由欧拉公式 $e^{ix}=\cos x+i\sin x$ 立即有 $$\algn{e^{i\w\tau} &= \cos\w\tau +i\sin\w\tau \\ e^{-i\w\tau} &= \cos\w\tau -i\sin\w\tau }$$
以下内容主要是傅里叶变换的性质,没看见作业中要用。笔者估计也就线性性质值得注意。
参考文档:维基百科。一般傅里叶变换是:$$\hat{f}(\xi) = \int_{-\infty}^\infty f(x) e^{- 2\pi i x \xi} dx\qquad f(x) = \int_{-\infty}^\infty \hat f(\xi) e^{2 \pi i \xi x} d\xi$$
我们这里使用角频率(弧度/秒)来取代普通频率(赫兹)。令 $\w = 2\pi\xi$,所以傅里叶变换是 $$\hat f(\w) = \iint f(x) e^{-i\w x} dx \qquad f(x)=\frac1{2\pi}\iint \hat f (\w) e^{i\w x}d\w$$
回顾 $R_X(\tau)$ 与 $S_X(\o)$ 的关系:
$$R_X(\tau)= \frac1{2\pi} \iint e^{i\o\tau}S_X(\o)d\o, \quad \ni<\tau<\zi$$ $$S_X(\o)= \iint e^{-i\o\tau}R_X(\tau)d\tau, \quad \ni<\o<\zi$$
也就是前文所说的 $\mathscr{F}\set{R_X(\tau)} = S_X(\w), \mathscr{F}^{-1}\set{S_X(\w)} = R_X(\tau)$.
(互谱密度) 开摆!作业上也没有相关的东西。一大堆数学工具不会,考了就躺平。
抄书:
第五章 马尔可夫过程
Ch1 概述
马尔可夫过程是无后效性的随机过程。当过程在 $t_m$ 时刻的状态已知时,过程在大于 $t_m$ 时刻所处状态的概率特性,只与过程在 $t_m$ 时刻所处的状态有关,而与过程在 $t_m$ 之前的状态无关。
若把 $t_m$ 称为「现在」,$t_m$ 以前称为「过去」,以后称为「将来」,则无后效性可以表述为:过程在已知现在状态的条件下,将来的状态只与现在状态有关,而与过去状态无关。
书上给了几个例子:
马尔可夫过程,按照状态和时间参数的离散/连续可以分成:
- 时间、状态都离散的马尔可夫过程。称为马尔可夫链。
- 时间连续、状态离散的马尔可夫过程。
- 时间、状态都连续的马尔可夫过程。
显然不能时间离散而状态连续。
我们后面主要讨论马尔可夫链。无特殊说明的情况下,假定参数集合 $T=\mathbb{N}$,状态空间 $S=\mathbb{Z}$ 或其子集。
(马尔可夫链的定义) 设随机过程 $\set{X(n), n=0,1,2\cdots}$ 的离散状态空间为 $E$,若对于任意 $m$ 个非负整数 $n_1,\cdots,n_m$ 和任意自然数 $k$,以及任意 $i_1,\cdots, i_m, j \in E$,满足$$P\set{X(n_m+k)=j\mid X(n_1)=i_1,X(n_2)=i_2,\cdots,X(n_m)=i_m} = P\set{X(n_m+k)=j\mid X(n_m)=i_m}$$则称 $\set{X(n),n=0,1,\cdots}$ 为马尔可夫链。
直观解释:「知道前 $m$ 个状态是 $i_1,\cdots, i_m$」,其中蕴含的信息量与「只知道第 $m$ 个状态是 $i_m$」一致。
上述等式也是「无后效性」的表达式。
式中右边的形式为 $P\set{X(n+k)=j\mid X(n)=i}$ 称为马尔可夫链在 $n$ 时刻的 $k$ 步转移概率。记 $p_{ij}^{(k)}(n)$ 为「已知 $n$ 时刻处于状态 $i$,经过 $k$ 个单位时间后处于 $j$ 状态」的概率。
显然有两条性质:
- $p_{ij}^{(n)}(m)\geq 0, i, j \in S$
- $\dp \sum_{j\in S}p_{ij}^{(n)}(m) = \sum_{j\in S}P\set{X_{m+n}=j\mid X_m=i}=1$
特殊地,一步转移概率 $p_{ij}^{(1)}(m)$ 可以简写为 $p_{ij}(m)$.
定义 $p_{ij}^{(0)}(m) = \delta_{ij} = \begin{cases}1, &i=j \\ 0, & i\neq j\end{cases}$
(时齐马尔可夫链) 若 $\pijn(m)$ 与 $m$ 无关,则称 $\set{X_n}$ 是时齐或其次的马尔可夫链。此时,记$$\pijn = \pijn(m),\quad i,j\in S, n\geq 1$$一步转移概率记为 $\pij = p_{ij}^{(1)}$.
马上可以看出一条性质:对于时齐的马尔可夫链 $\set{X_n}$,有 $$\pijn = P\set{X_{m+n}=j \mid X_m=i} = P\set{X_n=j\mid X_0=i}$$
(一步转移概率) 我们可以用矩阵 $\mathbf{P}$ 来记录一步转移概率:$$\BP=\begin{bmatrix} p_{00} & p_{01} &\cdots & p_{0j} & \cdots \\ p_{10} & p_{11} & \cdots & p_{1j} & \cdots\\ \vdots & \vdots & \vdots & \vdots & \vdots \\ p_{i0} & p_{i1} & \cdots & p_{ij} & \cdots \\ \vdots & \vdots & \vdots & \vdots & \vdots\end{bmatrix}$$若马尔可夫链的状态有限,则 $\BP$ 是一个有限阶的方阵,阶等于状态个数。
$\BP$ 的 $i$ 行 $j$ 列表示「从 $i$ 一步转移到 $j$」的概率。
例1. 粒子在直线上整点的随机游动。假设每次向右走一个单位的概率是 $p$,向左走一个单位的概率是 $1-p$。设时刻 $0$ 时在原点,则粒子于时刻 $n$ 所处的位置 $\set{X_n}$ 是马尔可夫链。转移概率:$$p_{ij} = \begin{cases}p, &j=i+1 \\ 1-p, &j=i-1 \\ 0, & otherwise\end{cases}$$当 $p=0.5$ 时,称为简单对称随机游动。
例2. 伯努利实验,成功概率为 $p$。以 $X_n$ 表示第 $n$ 次试验的结果,成功则为 1,失败则为 2。那么显然这是马尔可夫链,一步转移概率矩阵:$$\BP = \begin{pmatrix}p & q \\ p & q \end{pmatrix}$$
独立同分布的离散型随机变量序列都是马尔可夫链。未来的状态甚至与现在的状态都无关,更与过去状态无关。
书上的几个其他例子:
【例题】 抛两枚硬币,用 $X(n)$ 表示各抛 $n$ 次之后,正面朝上的总次数。问 $X(n)$ 是否为马尔可夫链、写出一步转移概率。
【解】是马尔可夫链,一步转移概率:$$p_{ij} = \begin{cases}1/4, & j=i \\ 1/2, & j=i+1 \\ 1/4, & j=i+2 \\0, & otherwise\end{cases}$$
(C-K 方程) 设 $\pijn$ 是马尔可夫链 $\set{X_n}$ 的 $n$ 步转移概率,则 $\forall i,j \in S,m,n\geq 0$ 有$$p_{ij}^{(m+n)} = \sum_{k\in S}p_{ik}^{(m)}p_{kj}^{(n)}$$
Chapman-Kolmogorov 方程可以类比 Floyd 算法。$(m+n)$ 步从 $i$ 转移到 $j$ 的概率,等于考虑全部中间状态 $k$,$i\to k \to j$ 的概率之和。
教材上的记号和 PPT 不同。按 PPT 的表示方式,以 $\BP^{(n)}$ 表示 $n$ 步转移概率矩阵,则:$$\BP^{(m+n)} = \BP^{(m)}\cdot \BP^{(n)}, \quad \BP^{(n)} = \BP ^ n$$
(绝对概率和初始概率) 称 $\pi_i(n)=P\set{X_n = i}$ 为绝对概率。特别地,称 $\pi_i(0)=P\set{X_0 = i}$ 为初始概率。显然有:$$\begin{cases}\pi_i(n)\geq 0, i\in S \\ \sum_{i\in S}\pi_i(n) = 1\end{cases}$$
显然,绝对概率分布 $\Pi(n) = \set{\pi_i (n)}_{i\in S}$ 完全被初始概率分布 $\Pi(0)$ 以及一步转移概率所确定。
【例题】天气预报问题。若明天是否有雨仅与今天天气有关,与过去无关,并设今日有雨,明日也有雨的概率为 $\alpha$,今日无雨而明日有雨的概率为 $\beta$,求今日有雨且第四日有雨的概率。设 $\alpha=0.7,\beta=0.4$。
【解】以 $1$ 表示有雨,$2$ 表示无雨。一步转移矩阵:$$\BP=\begin{bmatrix}\alpha & 1-\alpha \\ \beta & 1-\beta\end{bmatrix} = \begin{bmatrix}0.7 & 0.3 \\ 0.4 & 0.6\end{bmatrix} $$则$$\BP^{(4)} = \BP^4 = \begin{bmatrix}0.5749 & 0.4251 \\ 0.5668 & 0.4332\end{bmatrix}$$故所求概率为 $p_{11}^{(4)} = 0.5749$
在此之后,PPT 与书产生了很大的不同。以下按 PPT 为准。
Ch2 马尔科夫链的状态分类
设马尔可夫链的状态空间为 $S=\set{1,2,\cdots,9}$,转移概率如图所示。
(状态的周期) 设马尔可夫链 $X_n$ 的状态空间为 $S$,$n$ 步转移概率为 $\pijn$,对于 $i\in S$,若集合 $\set{n\mid n\geq 1, p_{ii}^{(n)}>0}$ 非空,则称该集合的最大公约数$$d = d(i) = \gcd\set{n\mid n\geq 1,p_{ii}^{(n)} > 0}$$为状态 $i$ 的周期。若 $d>1$,称状态 $i$ 是周期的;如果 $d=1$,称状态 $i$ 为非周期的。若 $\set{n\mid n\geq 1,p_{ii}^{(n)}>0}$ 是空集,则不对状态 $i$ 定义周期。
直观地看,如果从 $i$ 出发走 $n$ 步能返回 $i$,则 $n$ 在上述集合中。如果 $d>1$,那么从 $i$ 出发走若干步,如果步数不是 $d$ 的倍数,就不可能回到 $i$。
(定理) 设状态 $i$ 的周期为 $d$,则存在整数 $M$,有$$\forall n\geq M, p_{ii}^{(nd)} > 0$$证明需要用到数论中的结论。
(首中概率) 我们记$$\algn{\fijn &= P\set{X_1\neq j,X_2\neq j,\cdots,X_n=j \mid X_0 = i} \\ &= \sum_{i_1\neq j}\sum_{i_2\neq j}\cdots\sum_{i_{n-1}\neq j} p_{ii_1}\cdot p_{i_1i_2} \cdots p_{i_{n-1}j} }$$以 $\fijn$ 表示系统从 $i$ 出发,经过 $n$ 步首次到达状态 $j$ 的概率。也称为首中概率。
那么,$f_{ii}^{(n)}$ 表示系统从 $i$ 出发,经过 $n$ 步首次返回 $i$ 的概率。规定 $\fijx{0}=0$.
令$$f_{ij} = \sum_{n=1}^\zi \fijn$$则 $f_{ij}$ 表示系统从状态 $i$ 出发,经过有限步到达状态 $j$ 的概率,或称「从 $i$ 出发,迟早要到达 $j$ 的概率」。
显然,$f_{ii}$ 表示的是「从 $i$ 出发,迟早返回 $i$ 的概率」。
(常返态) 若 $f_{ii}=1$,则称 $i$ 是常返状态。若 $f_{ii}<1$,则称 $i$ 是非常返态,或滑过状态。
根据 Hazza Cheng 的博客:
- 记 $A(i)$ 表示 $i$ 可达的状态集合。若 $\forall j\in A(i)$ 有 $i\in A(j)$,则状态 $i$ 常返。
- 若 $i$ 是常返的,则 $A(i)$ 称为常返类。$A(i)$ 中所有状态相互可达,但 $A(i)$ 之外的状态不可达。
- 一个状态自身也能构成一个常返类(吸收状态)。
- 从任何一个非常返状态出发,至少有一个常返状态是从它可达的。但从任何一个常返状态出发,都不可到达非常返状态。
- 一个马尔可夫链的状态集合可以分解成一个或多个常返类,加上可能的一些非常返状态。
【例题】 PPT 上的例题如下:
【解】
- 状态 1,有 $1/4$ 概率进入状态 $3$,而进入 $3$ 之后无法返回 $1$,非常返。
- 状态 2,$f_{22}^{(1)}=0.5, f_{22}^{(2)}=0.5, f_{22} = 0.5+0.5=1$,常返。
- 状态 3,$f_{33} = 0 + 1/2 + 1/4 + \cdots = 1$,常返。
- 状态 4,是吸收状态,常返。
(重要定理) 对任意状态 $i,j\in S, n\geq 1$,有 $$\pijn = \sum_{m=1}^{n} \fijx{m}p_{jj}^{(n-m)}$$
以及,明显有 $0\leq \fijn \leq \pijn \leq f_{ij} \leq 1$.
直观意义:从 $i$ 走 $n$ 步到达 $j$,可能是恰好 $n$ 步抵达,也可能是 $n-k$ 步抵达之后出去逛一圈回到 $j$,以此类推。
PPT 称,上面的定理和 C-K 公式是马尔可夫链最关键的两个公式。
(周期的等价定义) 设状态 $i\in S$,若集合 $\set{n\mid n\geq 1, f_{ii}^{(n)}}$ 非空,则 $$\gcd\set{n\mid n\geq1, p_{ii}^{(n)}>0} = \gcd\set{n\mid n\geq1, f_{ii}^{(n)}>0} = d(i)$$
(定理)
- 若 $\exists n$ 使得 $p_{ii}^{(n)}>0, p_{ii}^{(n+1)}>0$,则 $i$ 非周期。
- 若 $\exists m$ 使得 $m$ 步转移矩阵 $\BP^{(m)}$ 中对应于状态 $j$ 的那一列元素全部非 $0$,则 $j$ 非周期。
定理 1,集合中两个数互质,则整个集合的 $\gcd$ 一定是 $1$。
定理 2 可以通过定理 1 立即推出。其意义:若任何状态都可以走 $m$ 步到达 $j$,则 $j$ 非周期。
(平均返回时间) 对于常返状态 $i$,由于 $f_{ii}=\sum_{n=1}^\zi f_{ii}^{(n)}=1$,故 $\set{f_{ii}^{(n)}, n\geq 1}$ 是一个概率分布,此分布的期望值 $$\mu_i = \sum_{n=1}^\zi n \cdot f_{ii}^{(n)}$$表示从 $i$ 出发再返回 $i$ 的平均返回时间。
(遍历态) 设状态 $i$ 是常返的,若 $\mu_i < \infty$,则称 $i$ 是正常返的;若 $\mu_i = \infty$,则称 $i$ 是零常返的。非周期的正常返态,称为遍历态。
这里「非周期」很重要。
接下来讨论常返性的判别和性质。先介绍一个数学工具:
(母函数) 设 $\set{a_n, n\geq 0}$ 为实数数列。考虑其母函数$$A(s) = \sum_{n=0}^{\infty}a_ns^n$$若 $a_n$ 有界,则 $A(s)$ 对一切 $|s|<1$ 收敛。进而,若 $\set{a_n}$ 与 $\set{b_n}$ 的母函数分别为 $A(s), B(s)$,且对一切 $|s|<1$ 收敛,则 $\set{a_n}$ 与 $\set{b_n}$ 的卷积是:$$C_n = \sum_{k=0}^n a_kb_{n-k}\quad (n=0,1,\cdots)$$其母函数为 $C(s)=A(s)B(s)$。
母函数是把数列编码成多项式的方法。「数列的卷积」与「多项式乘法」可以互相转化。
(常返/非常返判定) 状态 $i$ 常返的充要条件:$$\sum_{n=0}^\infty p_{ii}^{(n)}=\infty$$状态 $i$ 非常返的充要条件:$$\sum_{n=0}^\infty p_{ii}^{(n)}=\frac{1}{1-f_{ii}} < \infty$$证明需要用到母函数。
为解释上述定理的直观意义,我们令$$I_n(i) = \begin{cases}1, & X_n=i \\ 0, & X_n\neq i\end{cases}$$以及,令 $\dp S(i)=\sum_{n=0}^\infty I_n(i)$。则 $S(i)$ 表示马尔可夫链 $\set{X_n}$ 到达 $i$ 的次数。显然 $S(i)$ 是个随机变量。
此时,$$E[S(i)\mid X_0 = i] = \sum_{n=0}^\infty E[I_n(i)\mid X_0=i] = \sum_{n=0}^\infty P\set{X_n=i\mid X_0=i}= \sum_{n=0}^\infty p_{ii}^{(n)}$$
也就是说,$\dp\sum_{n=0}^\infty p_{ii}^{(n)}$ 表达了从 $i$ 出发返回 $i$ 的平均次数。当 $i$ 为常返态时,返回 $i$ 的平均次数为无限多次;为非常返态时,回到 $i$ 的平均次数至多是有限次。
比起按照常返性定义「先算 $f_{ij}^{(n)}$、再算 $f_{ij}$ 判是否为 $1$」,上述两个判定定理的计算要轻松很多。
(推论) 若 $j$ 为非常返态,则 $\forall i\in S$,有$$\sum_{n=1}^\infty \pijn < \infty $$ $$ \lim_{n\to\infty}\pijn = 0$$
(定理) 下面再从概率意义考察常返状态的性质。我们记 $\dp S_m(j)=\sum_{n=m}^\infty I_n(j)$,即 $S_m(j)$ 表示在时刻 $m$ 及之后抵达 $j$ 的次数,事件 $\set{S_m(j)=\zi}$ 表示从 $m$ 时刻起系统无数次到达 $j$。记$$g_{ij}=P\set{S_1(j)=\zi \mid X_0 = i} = P\set{S_{m+1}(j)=\zi \mid X_m=i}$$那么有下面的定理:$$g_{ij} = \begin{cases}f_{ij}, & 若 j 常返 \\ 0, & 若 j 非常返\end{cases}$$
(定理) 状态 $i$ 常返,当且仅当 $g_{ii}=1$;若状态 $i$ 非常返,则 $g_{ii}=0$。
PPT remark:若 $i$ 常返,则系统从 $i$ 出发以概率 $1$ 无穷次返回 $i$。也就是说,从状态 $i$ 出发的几乎所有样本轨道都会无穷次返回 $i$。
若 $i$ 非常返,则从 $i$ 出发的几乎所有样本轨道至多有限次返回 $i$。
接下来,我们给出用于判定状态的遍历性、零常返性的定理。
(定理) 设状态 $i$ 常返且有周期 $d$,则 $\dp\lim_{n\to\infty}p_{ii}^{(nd)} = \frac{d}{\mu_i}$
(定理) 设 $i$ 是常返态,则
- $i$ 是零常返状态,当且仅当 $\dp\lim_{n\to\infty}p_{ii}^{(n)} = 0$
- $i$ 是遍历状态,当且仅当 $\dp\lim_{n\to\infty}p_{ii}^{(n)} = \frac1{\mu_i}>0$
于是,我们只需要计算 $\dp\sum_{n=0}^\infty p_{ii}^{(n)}$ 是否为 $\infty$,就能判断它是常返还是非常返;如果是常返态,那么只需计算 $p_{ii}^{(n)}$ 的极限,就能判断它是否为零常返、是否为遍历态。
(相通性) 设 $i,j\in S$,则:
- 若 $\exists n\geq 1$ 使得 $\pijn > 0$,则称状态 $i$ 可达状态 $j$,记为 $i\to j$;
- 若 $\forall n\geq 1$,有 $\pijn = 0$,则称状态 $i$ 不可达状态 $j$,记为 $i\not\to j$;
- 若 $i\to j$ 且 $j\to i$,则称 $i,j$ 相通(或互通),记为 $i\leftrightarrow j$
显然有两条性质:
- 若 $i\to k, k\to j$,则 $i\to j$
- 若 $i\leftrightarrow k, k\leftrightarrow j$,则 $i\leftrightarrow j$
(定理) 设状态 $i,j\in S$ 且 $i\leftrightarrow j$,则:
- $i,j$ 要么同为常返态,要么同为非常返态;若同为常返态,则它们同为正常返或同为零常返。
- $i,j$ 拥有相同的周期。
这里可以衔接前文 remark 引用的关于「常返类」的知识。
【例题】设马氏链 $\set{X_n}$ 的状态空间为 $S=\mathbb{N}$,转移概率为$$p_{00}=\frac12, p_{i, i+1}=\frac12, p_{i0}=\frac12, i\in S$$考察各状态的常返性。
【解】对于状态 $0$。有 $f_{00}=\frac12 + \frac14 + \frac 18 + \cdots = 1$,故常返。
对于其他状态 $i$,显然 $i \leftrightarrow 0$,又由于 $0$ 常返,于是 $i$ 也常返。
综上,系统内所有状态都常返。
Ch3 状态空间的分解
(闭集) 定义:
- 设 $C\subset S$,若 $\forall i\in C, j\in S-C$,有 $i\not\to j$,则称 $C$ 是闭集。
- 设 $C\subset S$,若 $\forall i,j\in C$,有 $i\to j$,则称 $C$ 是不可约的。
- 若 $S$ 是不可约的,则称马氏链 $\set{X_n}$ 是不可约的。
(定理) 设 $C\subset S$,则以下两条等价:
- $C$ 是闭集
- $\forall i\in C,j\not \in C, n\geq 1$,有 $p_{ij}^{(n)}=0$
简直不知所谓。这就等于照抄可达性的定义。
注:
- 若 $C$ 是闭集,则 $\forall i\in C,n\geq 1$ 有 $\sum_{j\in C} \pijn = 1$
- 整个状态空间 $S$ 是闭集,是最大的闭集;吸收状态 $i$ 是闭集,是最小的闭集。
第一条的意义:从闭集里面的元素出发走 $n$ 步,肯定仍然落在闭集中。
(分解定理) 状态空间 $S$ 可以唯一地分解成有限个或可列无穷个互不相交的子集之和,即 $S=S_N\cup S_R^{(1)} \cup S_R^{(2)}\cup \cdots$,且满足:
- 每个 $S_R^{(k)}$ 是常返状态组成的不可约闭集
- $S_R^{(k)}$ 中的状态要么全部是正常返态,要么全是零常返态,且拥有相同的周期。
- $S_N$ 是由全体非常返态组成,由 $S_R^{(k)}$ 中的状态不能到达 $S_N$ 中的状态。
注:分解定理中,$S_N$ 不一定是闭集。但如果 $S$ 为有限集,则 $S_N$ 一定是非闭集。
【例题】如下:
【解】画出状态转移图,马上看到:
- $S_N = \set{4}$,非常返
- $S_R^{(1)}=\set{1,3,5}$,周期为 $3$,正常返
- $S_R^{(2)}=\set{2, 6}$,周期为 $1$,正常返
(定理) 周期为 $d$ 的不可约马尔可夫链,其状态空间 $S$ 可唯一地分解为 $d$ 个互不相交子集的和,即 $$S=S_0\cup S_1 \cup \cdots \cup S_{d-1}$$且使得 $S_r$ 中任意一个状态出发,经一步必定进入 $S_{r+1}$ 中。$S_{d-1}$ 走一步进入 $S_0$ 中。
一个马尔可夫链不可约,那么它的所有状态在同一个常返类中。其任一元素拥有相同的周期,称为这个马尔可夫链的周期。
见 Hazza Cheng 的博客图。状态空间 $S$ 被划分为三个子集,从每个子集出发走一步会进入下一个子集。
(定理) 设 $\set{X_n}$ 是周期为 $d$ 的不可约马尔可夫链。如果只在时刻 $0, d, 2d,\cdots$ 上考虑 $\set{X_n}$,则得到一个新的马尔可夫链 $\set{X_{nd}}$,其一步转移矩阵为 $\BP^{(d)}=(p_{ij}^{(d)})$。原马尔可夫链按照上述定理分解出来的每个 $S_r$,是新马尔可夫链 $\set{X_{nd}}$ 的不可约的闭集,且 $S_r$ 是新马尔可夫链 $\set{X_{nd}}$ 的不可约闭集,且 $S_r$ 中的状态对新马尔可夫链是非周期的。
有点像群论里的划分等价类。
Ch4 平稳分布
对 $\pijn$ 的极限性质,我们讨论两个问题:一是 $\lim_{n\to\infty}\pijn$ 是否存在;二是,如果极限存在,其与 $i$ 是否有关。这就与马尔可夫链的「平稳分布」有密切联系。
(定理) 若 $j\in S$ 是非常返态或零常返态,则 $\forall i\in S$ 有 $\dp \lim_{n\to\infty} \pijn = 0$
(推论) 若马氏链的状态空间 $S$ 为有限集,则 $S$ 中的状态不可能全部是非常返状态,也不可能含有零常返状态。从而,不可约的有限马尔可夫链的状态都是正常返状态。
在物理学中经常有一类模型:不管系统初始状态为何,经历一段时间后,系统将处于平衡态。描述这种系统的概率特性,要用到 $\pijn$ 的渐进性质和平稳分布的概念。
(遍历性) 若 $\forall i,j\in S$,极限$$\lim_{n\to\infty}\pijn = p_j > 0$$存在,则称该马尔可夫链具有遍历性。此链又称遍历链。
马尔可夫链遍历性的意义:不管从哪个状态出发,经过充分大的转移步数之后,到达 $j$ 的概率接近正常数 $p_j$。
(定理) 若 $j$ 是非周期正常返状态(aka. 遍历态),且有 $i\to j$,则$$\lim_{n\to\infty}\pijn =\frac{f_{ij}}{\mu_j}$$其中 $\dp\mu_j=\sum_{n=1}^\infty n\cdot f_{jj}^{(n)}$ 是 $j$ 状态的平均返回时间。
注:对于不可约马氏链,若其状态是非周期正常返的,则它是遍历链;对于不可约马氏链,若它的状态有限且非周期,则它是遍历链。
注:上面那个式子的直观感受。假设 $\mu_j=2$,即从 $j$ 出发回到 $j$ 的平均时间是 $2$ 次转移。那么,从 $i$ 出发走足够步数,能够到达 $j$ 的概率是 $f_{ij}$。第一次到达 $j$ 之后,开始从 $j$ 出发游走,平均每 $\mu_j$ 步要回来一次。所以,如果随便选一个特别远的时刻观测,应该有 $1/\mu_j$ 的概率是在 $j$ 状态的。因此总共的概率,根据乘法原理,是 $f_{ij}\cdot \frac{1}{\mu_j}$
(马氏链的平稳分布) 设马氏链有转移矩阵 $\BP$,若存在一个概率分布 $\set{\pi_i, i\geq 0}$ 满足$$\pi_j = \sum_{i=0}^\infty \pi_i p_{ij}, \quad j\in S$$则称 $\set{\pi_i}$ 为该马氏链的平稳分布。
$\pi_i$ 应该理解为「达到稳定状态时,处于 $i$ 状态的概率」。如此,则再进行一次转移,落在 $i$ 状态的概率仍然是 $\pi_i$,即达到了稳定。
对于平稳分布 $\set{\pi_j, j\in S}$ 有$$\pi_j = \sum_{i\in S}\pi_ip_{ij}=\sum_{i\in S}\left( \sum_{k\in S}\pi_kp_{ki}\right)p_{ij} = \sum_{k\in S}\pi_k\left(\sum_{i\in S}p_{ki}p_{ij} \right) = \sum_{k\in S}\pi_kp_{kj}^{(2)}$$一般地,有 $\pi_j=\sum_{i\in S}\pi_ip_{ij}^{(n)}, n\geq 1$
笔者是这样认为的:$\vec{\pi}$ 是一个行向量,使得 $\vec{\pi}\cdot \BP = \vec{\pi}$. 那显然 $\vec{\pi}\cdot \BP^n$ 仍然等于 $\vec{\pi}$,这就是上面这段话要表达的意思。
若初始分布 $\set{\pi_j(0), j\in S}$ 是马氏链 $\set{X_n}$ 的平稳分布,则$$\pi_j(n)=P\set{X_n=j}=\sum_{i\in S}P\set{X_i =i }P\set{X_n=j\mid X_0=i} = \sum_{i\in S}\pi_i(0)\pijn = \pi_j(0), \quad j\in S$$即 $\forall n\geq 1$,绝对概率等于初始概率。
由此可见,当我们能判断马氏链的初始分布为平稳分布时,则该马氏链在任意时刻的绝对分布都与初始分布相同。
(非周期不可约马氏链为正常返的充要条件) 非周期不可约的马氏链 $\set{X_n}$ 为正常返的充要条件,是它存在平稳分布,且此平稳分布就是极限分布 $1/\mu_j,j\in S$.
推论:
- 对不可约非周期马氏链,若所有状态都是正常返,则该链存在平稳分布,且平稳分布 $\set{\pi_j, j\in S}$ 就是极限分布 $\set{1/\mu_j, j\in S}$;若所有状态都是非常返,或所有状态都是零常返,则不存在平稳分布。
- 不可约非周期的有限状态马氏链必存在平稳分布。
- 若 $\set{\pi_j,j\in S}$ 是马氏链的平稳分布,则 $\dp \lim_{n\to\infty} \pijn =\frac1{\mu_j}=\pi_j$
完结撒花! 2022.10.27 21:16