ML的数学基石-反函数定理(Inverse function theorem)

前置知识

单射,满射,双射

  • 单射:每个输入值有唯一的输出值,不会有两个不同的输入映射到同一个输出。
  • 满射:每个输出值都至少有一个输入值与之对应。
  • 双射:既是单射又是满射,即每个输入值有唯一的输出值,且每个输出值都有唯一的输入值。

雅可比矩阵 (Jacobian Matrix)

雅可比矩阵是描述多元函数在某一点处的局部线性近似的矩阵形式,具体定义见前文。


预备知识 - 完备度量空间

1.1 度量空间的基本定义

一个度量空间是一个集合 $S$ 配备了一个“度量函数” $d: S \times S \to \mathbb{R}$,它满足以下性质(即定义“距离”的规则):

  1. 非负性
    $$
    d(x, y) \geq 0, \quad \text{且当且仅当 } x = y, \ d(x, y) = 0;
    $$
  2. 对称性
    $$
    d(x, y) = d(y, x);
    $$
  3. 三角不等式:对任意 $x, y, z \in S$,有
    $$
    d(x, z) \leq d(x, y) + d(y, z).
    $$
    度量 $d(x, y)$ 定义了集合 $S$ 中任意两点之间的距离,使 $S$ 成为一个度量空间。

1.2 完备性:柯西序列的收敛性

一个度量空间 $(S, d)$ 是完备的,当且仅当空间内的每个柯西序列都收敛于 $S$ 中的一个点。

什么是柯西序列?

一个序列 ${x_n} \subseteq S$ 是一个柯西序列,如果它满足以下条件:

  • 对于任意的 $\varepsilon > 0$,存在一个整数 $N > 0$,使得当 $m, n \geq N$ 时,$$d(x_m, x_n) < \varepsilon.$$

简单来说,在柯西序列中,序列的元素在这个空间中变得越来越“接近彼此”。例如:

  • 如果序列越来越“集中”到一个点附近,就是柯西序列(无论这个点是否是空间内部的点)。
  • 注意:柯西序列的定义不要求你事先知道收敛点,仅要求元素之间的距离无限趋近于零。

示例

  • 正例:序列 $x_n = 1 + \frac{1}{n}$ 是一个柯西序列。
  • 反例:对于非完备的空间(例如 $\mathbb{Q}$ 上),可能存在柯西序列无法收敛到 $\mathbb{Q}$ 内的一个点。例如,序列 $x_n = 1, 1.4, 1.414, 1.4142, \dots$ 收敛到 $\sqrt{2}$,但 $\sqrt{2} \notin \mathbb{Q}$。这说明 $\mathbb{Q}$ 不完备。

1.3 完备性的意义

  • 在一个完备度量空间中,任何柯西序列一定会收敛,并且其极限点一定在空间 $S$ 内。
  • 如果一个空间不是完备的,则可能存在柯西序列,其极限点落在 $S$ 外部(即序列离开了原来的空间)。

预备知识 - Banach 不动点定理

定理陈述

设 $(X, d)$ 是一个完备度量空间,$T: X \to X$ 是一个压缩映射,即存在常数 $0 \leq k < 1$,使得对于任意 $x, y \in X$,有:
$$
d(T(x), T(y)) \leq k \cdot d(x, y).
$$
那么,$T$ 在 $X$ 中存在唯一的不动点 $x^*$,即 $T(x^*)=x^*$。


符号解释

  1. **$X$**:一个集合,表示度量空间中的元素。
  2. **$d$**:度量函数,表示 $X$ 中两个元素之间的距离,满足非负性、对称性和三角不等式。
  3. 完备度量空间:度量空间 $(X, d)$ 是完备的,如果其中的所有柯西序列都收敛于 $X$ 中的某个点。
  4. **$T$**:映射(函数),将 $X$ 中的元素映射到 $X$ 中的另一个元素。
  5. 压缩映射:映射 $T$ 是压缩的,如果存在常数 $0 \leq k < 1$,使得 $T$ 将任意两点之间的距离缩小至少 $k$ 倍。
  6. 不动点:点 $x^*$ 是 $T$ 的不动点,如果 $T(x^*) = x^*$。

证明

1. 构造序列:

从任意一点 $x_0 \in X$ 开始,构造序列 ${x_n}$,其中:
$$
x_{n+1} = T(x_n),
$$
即每次将当前点通过映射 $T$ 映射到下一个点。

2. 证明序列是柯西序列:

对于任意 $n, m \in \mathbb{N}$(假设 $n > m$),有:
$$
d(x_n, x_m) \leq d(x_n, x_{n-1}) + d(x_{n-1}, x_{n-2}) + \dots + d(x_{m+1}, x_m).
$$
由于 $T$ 是压缩映射,有:
$$
d(x_{i+1}, x_i) = d(T(x_i), T(x_{i-1})) \leq k \cdot d(x_i, x_{i-1}).
$$
递推可得:
$$
d(x_{i+1}, x_i) \leq k^i \cdot d(x_1, x_0).
$$
由于 $0 \leq k < 1$,最终 $d(x_n, x_m)$ 收敛到 0,故 ${x_n}$ 是柯西序列。

3. 完备性保证极限存在:

因为 $X$ 是完备的,柯西序列 ${x_n}$ 收敛于某个点 $x^* \in X$。注意,定理条件中给出了 $T$ 是 $X$ 到 $X$ 的映射。

4. 证明 $x^*$ 是不动点:

由于 $T$ 是连续的(压缩映射是连续的),有:
$$
T(x^*) = T\left(\lim_{n \to \infty} x_n\right) = \lim_{n \to \infty} T(x_n) = \lim_{n \to \infty} x_{n+1} = x^*.
$$
因此,$x^*$ 是 $T$ 的不动点。

5. 唯一性:

假设存在另一个不动点 $y^*$,即 $T(y^*) = y^*$,则:
$$
d(x^*, y^*) = d(T(x^*), T(y^*)) \leq k \cdot d(x^*, y^*).
$$
由于 $0 \leq k < 1$,只有当 $d(x^*, y^*) = 0$ 时成立,即 $x^* = y^*$。因此,不动点唯一。


总结

  • Banach 不动点定理表明,在完备度量空间中,压缩映射存在唯一的不动点。
  • 证明的关键是通过构造序列并利用压缩映射的性质证明序列收敛,然后验证极限点是不动点。
  • 该定理在数值分析、微分方程和优化等领域有广泛应用。

逆函数定理的证明

定理内容

给定一个连续可微函数 $f: \mathbb{R}^n \to \mathbb{R}^n$,若在某一点 $x_0 \in \mathbb{R}^n$,该函数的雅可比矩阵 $J_f(x_0)$ 是满秩的(即 $\det(J_f(x_0)) \neq 0$,雅可比矩阵可逆),那么可以得出以下结论:

  1. 局部可逆性
    在点 $x_0$ 的某个小邻域内,$f$ 是双射(即每个点都有唯一的像,并且每个像值对应唯一的原点),即 $f$ 在该邻域内有逆函数 $f^{-1}$。
  2. 逆函数的性质
    逆函数 $f^{-1}$ 也是连续可微的($C^1$),并且其导数由雅可比矩阵的逆给出:
    $$
    J_{f^{-1}}(f(x)) = [J_f(x)]^{-1},
    $$
    对于 $x$ 在邻域内。

总结来说,如果 $J_f(x_0)$ 是可逆的,则 $f$ 在 $x_0$ 的邻域内具有光滑的逆函数。


直观思路

逆函数 $f^{-1}$ 的基本定义是:给定 $y \in \mathbb{R}^n$,我们需要找到唯一的 $x \in \mathbb{R}^n$,使得 $f(x) = y$。
若 $f$ 在某点 $x_0$ 处是可逆的(即雅可比矩阵 $J_f(x_0)$ 可逆),可以通过近似线性化的方法(泰勒展开),证明每一个 $y$ 都有一个唯一解 $x$ 使 $f(x) = y$,而这个解可以通过压缩映射定理来找到。


详细证明

(1)定义辅助映射:

设 $y \in \mathbb{R}^n$ 是任意的目标值,并且我们希望找到 $x \in \mathbb{R}^n$,使得 $f(x) = y$。令:
$$
T(x) = x - J_f(x_0)^{-1} \cdot (f(x) - y),
$$
其中 $J_f(x_0)$ 是 $f$ 在点 $x_0$ 的雅可比矩阵。

需要证明:

  1. 映射 $T(x)$ 是一个压缩映射;
  2. 压缩映射 $T(x)$ 的不动点 $x^*$ 满足 $f(x^*) = y$。

(2)泰勒展开(局部线性化):

由 $f(x)$ 在点 $x_0$ 的泰勒展开(在一阶导数处截断):
$$
f(x) \approx f(x_0) + J_f(x_0) \cdot (x - x_0).
$$
令 $\Delta x = x - x_0$,有:
$$
f(x) \approx f(x_0) + J_f(x_0) \cdot \Delta x.
$$
设 $y = f(x)$,可以通过线性化近似得到:
$$
x \approx x_0 + J_f(x_0)^{-1} \cdot (y - f(x_0)).
$$
这表明,对于充分小的扰动 $y - f(x_0)$,可以从初始点 $x_0$ 通过迭代来逐步接近解。


(3)设计压缩映射:

选定 $x_0$ 邻域内的点 $x$ 和目标值 $y$,定义迭代映射:
$$
T(x) = x - J_f(x_0)^{-1} \cdot (f(x) - y).
$$
我们需要证明 $T(x)$ 是压缩映射。注意到:
$$
T(x) - T(z) = x - z - J_f(x_0)^{-1} \cdot (f(x) - f(z)).
$$
利用 $f(x)$ 的连续可微性,有:
$$
f(x) - f(z) = J_f( c ) \cdot (x - z),
$$
其中 $J_f(c)$ 是某个点 $c \in \mathbb{R}^n$ 的雅可比矩阵。代入得到:
$$
T(x) - T(z) = (I - J_f(x_0)^{-1} \cdot J_f( c )) \cdot (x - z).
$$
若 $J_f(x_0)$ 足够接近于 $J_f( c )$(在 $x_0$ 的邻域内),矩阵 $I - J_f(x_0)^{-1} J_f( c )$ 的范数小于 1,因此 $T$ 是压缩映射。


(4)应用压缩映射定理:

根据压缩映射定理,$T(x)$ 有唯一的不动点 $x^*$。对于该不动点,有:
$$
T(x^*) = x^* \implies x^* - J_f(x_0)^{-1} \cdot (f(x^*) - y) = x^*,
$$
化简得到:
$$
f(x^*) = y.
$$
因此,$x^*$ 是方程 $f(x) = y$ 的唯一解。


(5)局部可逆性与光滑性:

上述过程说明 $f$ 在 $x_0$ 的某邻域是局部可逆的,并且 $f^{-1}$ 是由连续迭代构造的,因此它是光滑($C^1$)的。

Author

李三(cl0und)

Posted on

2025-03-05

Updated on

2025-03-05

Licensed under