## Expectation and Long-Run Average Convergence(離散/連續與 RL)

By ihsumlee , 15 February 2026
content

## Expectation and Long-Run Average Convergence(離散/連續與 RL)

在強化學習(RL)與深度學習(DL)裡,符號 **E**(寫作 $\mathbb{E}[\cdot]$)表示 **期望(expected value)**。直覺上就是:  
**大量重複試驗後的平均**,也可以理解為 **長期平均(long-run average)**。

---

### 1) 期望與樣本平均:大數定律(LLN)

令隨機變數 $X$ 的期望為:

$$
\mu=\mathbb{E}[X].
$$

抽樣 $N$ 次得到 $X_1,\dots,X_N$,樣本平均:

$$
\bar{X}_N=\frac{1}{N}\sum_{i=1}^N X_i.
$$

大數定律的意思是:

$$
\bar{X}_N \xrightarrow[N\to\infty]{} \mathbb{E}[X].
$$

**直覺:** 每次抽樣都帶噪聲,但平均會互相抵消噪聲;樣本越多,平均越穩定。

---

### 2) 離散 vs 連續:只是「求和」或「積分」不同

#### 離散型(Discrete)
對函數 $f$:

$$
\mathbb{E}[f(X)] = \sum_x f(x)\,p(x).
$$

#### 連續型(Continuous)
對函數 $f$:

$$
\mathbb{E}[f(X)] = \int f(x)\,p(x)\,dx.
$$

#### Monte Carlo 抽樣估計(兩者通用)
只要你能抽樣 $x_i\sim p(x)$:

$$
\mathbb{E}[f(X)]\approx \frac{1}{N}\sum_{i=1}^N f(x_i).
$$

所以 **離散/連續都能用「取平均」逼近期望**。

---

### 3) RL 的 rollout 樣本相關,為何仍會收斂?

在 RL rollout 中:

- $a_t\sim \pi(\cdot|s_t)$(策略帶隨機)
- $s_{t+1}\sim P(\cdot|s_t,a_t)$(環境轉移帶隨機)

因此資料序列是 **Markov chain**,樣本通常 **相關**,不是 i.i.d。

若在策略 $\pi$ 下的 Markov chain **可混合/遍歷(ergodic / mixing)**,則存在類似大數定律的結果(ergodic theorem):

$$
\frac{1}{T}\sum_{t=1}^T f(s_t,a_t)
\;\xrightarrow[T\to\infty]{}\;
\mathbb{E}_{(s,a)\sim d^\pi}[f(s,a)],
$$

其中 $d^\pi$ 是策略 $\pi$ 誘導的 **平穩訪問分佈**。

**直覺:** 雖然樣本相關,但若系統會「混合」並逐漸「忘記」初始條件,時間平均就會接近期望。

---

### 4) RL 中兩種常見「平均」方式

#### (A) Episode 平均(Monte Carlo over trajectories)
跑 $N$ 條 episode(軌跡)$\tau^{(i)}$,計算回報 $R^{(i)}$:

$$
\hat{J}=\frac{1}{N}\sum_{i=1}^N R^{(i)}
\approx \mathbb{E}_{\tau\sim \pi}[R(\tau)].
$$

#### (B) 單條長序列的時間平均(Continuing tasks)
對持續型任務:

$$
\frac{1}{T}\sum_{t=1}^T r_t \approx \mathbb{E}_{(s,a)\sim d^\pi}[r(s,a)].
$$

---

### 5) Off-policy:行為策略 $\beta$ 與目標策略 $\pi$

若資料由行為策略 $\beta$ 收集,但你想估計目標策略 $\pi$ 下的期望,常用 **重要性採樣(importance sampling)**:

$$
\mathbb{E}_{a\sim \pi(\cdot|s)}[f(s,a)]
=
\mathbb{E}_{a\sim \beta(\cdot|s)}\left[
\frac{\pi(a|s)}{\beta(a|s)}\,f(s,a)
\right].
$$

用樣本 $(s_i,a_i)\sim \beta$ 的估計式:

$$
\mathbb{E}_{a\sim \pi}[f(s,a)]
\approx
\frac{1}{N}\sum_{i=1}^N w_i f(s_i,a_i),
\quad
w_i=\frac{\pi(a_i|s_i)}{\beta(a_i|s_i)}.
$$

**提醒:** 權重 $w_i$ 可能導致高方差,所以很多 off-policy 方法(DQN/SAC)更常用 Bellman 型更新來穩定學習。

---

### 6) 如何在實作中觀察「收斂」?

#### (A) 觀察 running average
定義:

$$
\bar{X}_N = \frac{1}{N}\sum_{i=1}^N X_i
$$

畫出 $\bar{X}_N$ 隨 $N$ 變化;若逐漸趨於平穩,表示估計在收斂。

#### (B) 收斂速度直覺
在近似 i.i.d. 情況下:

$$
\mathrm{SE}(\bar{X}_N)\approx \frac{\sigma}{\sqrt{N}}.
$$

樣本越多誤差越小;但在 RL 中由於相關性,**有效樣本數**會變小,收斂可能更慢。

---

### 7) 一句話總結(便於記憶)

- 離散/連續只差在求和或積分,但 Monte Carlo「取平均」都適用。  
- RL rollout 樣本相關,但若 Markov chain 可混合(ergodic),時間平均仍會收斂到訪問分佈下的期望。  
- Off-policy 常用重要性採樣(或用 DQN/SAC 等 off-policy 演算法的 Bellman 更新)。