## Expectation and Long-Run Average Convergence（離散/連續與 RL）

By ihsumlee , 15 February 2026

content

在強化學習（RL）與深度學習（DL）裡，符號 **E**（寫作 $\mathbb{E}[\cdot]$）表示 **期望（expected value）**。直覺上就是：
**大量重複試驗後的平均**，也可以理解為 **長期平均（long-run average）**。

---

### 1) 期望與樣本平均：大數定律（LLN）

令隨機變數 $X$ 的期望為：

$$
\mu=\mathbb{E}[X].
$$

抽樣 $N$ 次得到 $X_1,\dots,X_N$，樣本平均：

$$
\bar{X}_N=\frac{1}{N}\sum_{i=1}^N X_i.
$$

大數定律的意思是：

$$
\bar{X}_N \xrightarrow[N\to\infty]{} \mathbb{E}[X].
$$

**直覺：** 每次抽樣都帶噪聲，但平均會互相抵消噪聲；樣本越多，平均越穩定。

---

### 2) 離散 vs 連續：只是「求和」或「積分」不同

#### 離散型（Discrete）
對函數 $f$：

$$
\mathbb{E}[f(X)] = \sum_x f(x)\,p(x).
$$

#### 連續型（Continuous）
對函數 $f$：

$$
\mathbb{E}[f(X)] = \int f(x)\,p(x)\,dx.
$$

#### Monte Carlo 抽樣估計（兩者通用）
只要你能抽樣 $x_i\sim p(x)$：

$$
\mathbb{E}[f(X)]\approx \frac{1}{N}\sum_{i=1}^N f(x_i).
$$

所以 **離散/連續都能用「取平均」逼近期望**。

---

### 3) RL 的 rollout 樣本相關，為何仍會收斂？

在 RL rollout 中：

- $a_t\sim \pi(\cdot|s_t)$（策略帶隨機）
- $s_{t+1}\sim P(\cdot|s_t,a_t)$（環境轉移帶隨機）

因此資料序列是 **Markov chain**，樣本通常 **相關**，不是 i.i.d。

若在策略 $\pi$ 下的 Markov chain **可混合/遍歷（ergodic / mixing）**，則存在類似大數定律的結果（ergodic theorem）：

$$
\frac{1}{T}\sum_{t=1}^T f(s_t,a_t)
\;\xrightarrow[T\to\infty]{}\;
\mathbb{E}_{(s,a)\sim d^\pi}[f(s,a)],
$$

其中 $d^\pi$ 是策略 $\pi$ 誘導的 **平穩訪問分佈**。

**直覺：** 雖然樣本相關，但若系統會「混合」並逐漸「忘記」初始條件，時間平均就會接近期望。

---

### 4) RL 中兩種常見「平均」方式

#### (A) Episode 平均（Monte Carlo over trajectories）
跑 $N$ 條 episode（軌跡）$\tau^{(i)}$，計算回報 $R^{(i)}$：

$$
\hat{J}=\frac{1}{N}\sum_{i=1}^N R^{(i)}
\approx \mathbb{E}_{\tau\sim \pi}[R(\tau)].
$$

#### (B) 單條長序列的時間平均（Continuing tasks）
對持續型任務：

$$
\frac{1}{T}\sum_{t=1}^T r_t \approx \mathbb{E}_{(s,a)\sim d^\pi}[r(s,a)].
$$

---

### 5) Off-policy：行為策略 $\beta$ 與目標策略 $\pi$

若資料由行為策略 $\beta$ 收集，但你想估計目標策略 $\pi$ 下的期望，常用 **重要性採樣（importance sampling）**：

$$
\mathbb{E}_{a\sim \pi(\cdot|s)}[f(s,a)]
=
\mathbb{E}_{a\sim \beta(\cdot|s)}\left[
\frac{\pi(a|s)}{\beta(a|s)}\,f(s,a)
\right].
$$

用樣本 $(s_i,a_i)\sim \beta$ 的估計式：

$$
\mathbb{E}_{a\sim \pi}[f(s,a)]
\approx
\frac{1}{N}\sum_{i=1}^N w_i f(s_i,a_i),
\quad
w_i=\frac{\pi(a_i|s_i)}{\beta(a_i|s_i)}.
$$

**提醒：** 權重 $w_i$ 可能導致高方差，所以很多 off-policy 方法（DQN/SAC）更常用 Bellman 型更新來穩定學習。

---

### 6) 如何在實作中觀察「收斂」？

#### (A) 觀察 running average
定義：

$$
\bar{X}_N = \frac{1}{N}\sum_{i=1}^N X_i
$$

畫出 $\bar{X}_N$ 隨 $N$ 變化；若逐漸趨於平穩，表示估計在收斂。

#### (B) 收斂速度直覺
在近似 i.i.d. 情況下：

$$
\mathrm{SE}(\bar{X}_N)\approx \frac{\sigma}{\sqrt{N}}.
$$

樣本越多誤差越小；但在 RL 中由於相關性，**有效樣本數**會變小，收斂可能更慢。

---

### 7) 一句話總結（便於記憶）

- 離散/連續只差在求和或積分，但 Monte Carlo「取平均」都適用。
- RL rollout 樣本相關，但若 Markov chain 可混合（ergodic），時間平均仍會收斂到訪問分佈下的期望。
- Off-policy 常用重要性採樣（或用 DQN/SAC 等 off-policy 演算法的 Bellman 更新）。

Tags