03-无约束优化

问题

minimize $f (x)$ 其中, 函数 $f : R^{n} \to R$ 是一个实值函数。 $Ω = R^{n}$ subject to $x \in Ω$

函数梯度迭代示意图

梯度方法

思想：令 $x^{0}$ 作为初始搜索点，沿着梯度负方向构造一个新点 $x^{0} - α ▽ f (x^{0})$ ，如果 $▽ f (x^{0}) \neq = 0$ ，那么 $α > 0$ 足够小时，有 $f (x^{0} - α ▽ f (x^{0})) < f (x^{0})$ .
迭代公式： $x^{k + 1} = x^{k} - α_{k} ▽ f (x^{k})$ .
最速下降法：选择合适的步长 $α_{k}$ ，使得目标函数能够得到最大程度的减小。

α_{k} = a r g min_{a \geq 0} f (x^{k} - α ▽ f (x^{k}))

最速下降法

定理：最速下降法搜索函数 $f : R^{2} \to R$ 的极小点, 迭代过程产生的序列为 ${x^{(k)}}_{k = 0}^{\infty}$ , 那么, $x^{(k + 1)} - x^{(k)}$ 与 $x^{(k + 2)} - x^{(k + 1)}$ 正交对于所有的 $k ⩾ 0$ 都成立。
下降性质：利用梯度的本质，只要 $▽ f (x^{k}) \neq = 0$ ，就能保证每次迭代得到的新数值比原数值小。
实际计算中的停止搜索准则：定义最小变化量。一阶必要条件: $\nabla f (x^{(k)}) < ε$

最速下降法例题

最速下降法求 $f (x_{1}, x_{2}, x_{3}) = (x_{1} - 4)^{4} + (x_{2} - 3)^{2} + 4 (x_{3} + 5)^{4}$ 的极小点。初始搜索点为 $x^{(0)} = [4, 2 - 1]^{⊤}$ , 开展 3 次迭代。

Step1:

α_{0} x^{(1)} = α ⩾ 0 ar g min f (x^{(0)} - α \nabla f (x^{(0)})) = α ⩾ 0 ar g min (0 + (2 + 2 α - 3)^{2} + 4 (- 1 - 1024 α + 5)^{4}) = 3.967 \times 1 0^{- 3} = x^{(0)} - α_{0} \nabla f (x^{(0)}) = [4.000, 2.008, - 5.062]^{⊤}

Step2: $α_{1} = α ⩾ 0 ar g min (0 + (2.008 + 1.984 α - 3)^{2} + 4 (- 5.062 + 0.003875 α + 5)^{4}) = 0.5000$ $x^{(2)} = x^{(1)} - α_{1} \nabla f (x^{(1)}) = [4.000, 3.000, - 5.060]^{⊤}$ Step3: $α_{2} = α ⩾ 0 ar g min (0.000 + 0.000 + 4 (- 5.060 + 0.003525 α + 5)^{4}) = 16.29$ $x^{(3)} = [4.000, 3.000, - 5.002]^{⊤}$ 理论上：函数 $f$ 的极小点就是 $[4, 3, - 5]^{⊤}$

梯度方法特性以及收敛性分析

特性：单调下降算法；全局收敛
收敛性分析：将目标函数设定为二次函数：

V (x) = f (x) + \frac{1}{2} x^{* ⊤} Q x^{*} ▽ f (x) = \frac{1}{2} (x - x^{*})^{⊤} Q (x - x^{*}) = Q x - b

其中, $Q = Q^{⊤} > 0$ $x^{*} = Q^{- 1} b$

瑞利不等式：对于任意的 $Q = Q^{⊤} > 0$ , 有

λ_{m i n} (Q) ∥ x ∥^{2} ⩽ x^{⊤} Q x ⩽ λ_{m a x} (Q) ∥ x ∥^{2} λ_{m i n} (Q^{- 1}) ∥ x ∥^{2} ⩽ x^{⊤} Q^{- 1} x ⩽ λ_{m a x} (Q^{- 1}) ∥ x ∥^{2}

收敛性: 对于最速下降法，对于任意的初始点 $x^{(0)}$ ,都有 $x^{(k)} \to x^{*}$ 。

固定步长梯度法

对于所有步长 $α_{k} = α \in R$ ,迭代公式为： $x^{(k + 1)} = x^{(k)} - α g^{(k)}$

定理8.3: 对于步长固定梯度法, 当且仅当步长

0 < α < \frac{2}{λ _{m a x} ( Q )}

时, $x^{(k)} \to x^{*}$ 。

收敛率

定义8.1(收敛阶): 存在一个序列 ${x^{(k)}}$ , 能够收敛到 $x^{*}$ , 即 $lim_{k \to \infty} x^{(k)} - x^{*} = 0$ 。如果

0 < k \to \infty lim \frac{∥ x ^{(k + 1)} - x ^{*} ∥}{∥ x ^{(k)} - x ^{*} ∥ ^{p}} < \infty

则序列 ${x^{(k)}}$ 的收敛阶数为 $p$ , 其中, $p \in R_{。}$ 如果对任意的 $p > 0$ ，上式极限都为 $0$ ，那么称收敛阶数为 $\infty$ 。

定理8.6：最速下降法在求解目标函数 $f$ 的极小点时,产生一个收敛的迭代点 ${x^{(k)}}$ , 该序列在最坏情况下的收敛阶数为 1 。也就是说, 存在一个目标函数 $f$ 和某始点 $x^{(0)}$ , 能够使得 ${x^{(k)}}$ 的收敛阶数为 1 。

牛顿法

思路：最速下降法只用到了目标函数的一阶导数，如果能够在迭代方法中引入高阶导数，其效率可能优于最速下降法。
- 首先构造一个二次型函数，其与目标函数在该点的一阶和二阶导数相等，以此可以作为目标函数的近似表达式。
- 求改二次型函数的极小点，以此作为下一次迭代的起始点。
- 重复上述过程，直到满足迭代条件后退出。
迭代操作 目标函数 $f : R^{n} \to R$ 二阶连续可微, 将函数 $f$ 在点 $x^{(k)}$ 处进行泰勒展开, 可得到二次型近似函数:

f (x) \approx f (x^{(k)}) + (x - x^{(k)})^{⊤} g^{(k)} + \frac{1}{2} (x - x^{(k)})^{\overset{ˉ}{⊤}} F (x^{(k)}) (x - x^{(k)}) ≜ q (x)

其中 $g^{(k)} = \nabla f (x^{(k)})$ ,局部极小点的一阶必要条件

0 = \nabla q (x) = g^{(k)} + F (x^{(k)}) (x - x^{(k)})

如果 $F (x^{(k)}) > 0$ , 函数 $q$ 的极小点为 $x^{(k + 1)} = x^{(k)} - F (x^{(k)})^{- 1} g^{(k)}$

牛顿法收敛性分析

如果初始点靠近极大（小）点，那么牛顿法将具有非常好的收敛性，如果初始点离极大（小）点较远，牛顿法并不一定收敛。

修正牛顿法

带步长牛顿法： $x^{(k + 1)} = x^{(k)} - α_{k} F (x^{(k)})^{- 1} g^{(k)}$ , $α_{k} = a r g min f (x^{(k)} - α F (x^{(k)})^{- 1} g^{(k)})$

牛顿法求解非线性最小二乘

非线性最小二乘问题 $minimi ze \sum_{i = 1}^{m} (r_{i} (x))^{2}$ 其中, $r_{i} : R^{n} \to R, i = 1, \dots, m$ 为给定的函数。
分析：令 $r = [r_{1}, \dots, r_{m}]^{⊤}$ , 可将目标函数写为 $f (x) = r (x)^{⊤} r (x)$ 。计算函数 $f$ 的梯度和黑塞矩阵

(\nabla f (x))_{j} = \frac{\partial f}{\partial x _{j}} (x) = 2 i = 1 \sum m r_{i} (x) \frac{\partial r _{i}}{\partial x _{j}} (x)

$r$ 的雅可比矩阵为：

J (x) = \frac{\partial r _{1}}{\partial x _{1}} (x) ⋮ \frac{\partial r _{m}}{\partial x _{1}} (x) \dots \dots \frac{\partial r _{1}}{\partial x _{n}} (x) ⋮ \frac{\partial r _{m}}{\partial x _{n}} (x)

函数 $f$ 的梯度可以表示为 $\nabla f (x) = 2 J (x)^{⊤} r (x)$ 函数 $f$ 的黑塞矩阵 $F (x) = 2 (J (x)^{⊤} J (x) + S (x))$ $S (x)_{k, j} = \sum_{i = 1}^{m} r_{i} (x) \frac{\partial ^{2} r _{i}}{\partial x _{k} \partial x _{j}} (x)$ 牛顿法求解非线性最小二乘迭代公式：

x^{(k + 1)} = x^{(k)} - (J (x)^{⊤} J (x) + S (x))^{- 1} J (x)^{⊤} r (x)

矩阵 $S (x)$ 包含函数 $r$ 的二阶导数, 其中的元素都很小高斯一牛顿法求解非线性最小二乘迭代公式：即略掉 $S (x)$ 项

x^{(k + 1)} = x^{(k)} - (J (x)^{⊤} J (x))^{- 1} J (x)^{⊤} r (x)

共轭类方法

方法特性：

对于n维二次型问题，能够在n步之内得到结果。
共轭梯度法不需要计算黑塞矩阵
不需要储存n·n矩阵，也不需要对矩阵进行求逆
计算速度介于最速下降法和牛顿法之间。

定义10.1(共轭)： $Q$ 为 $n \times n$ 的对称实矩阵, 对于方向 $d^{(0)}, d^{(1)}, d^{(2)}, \dots, d^{(m)}$ , 如果对于所有的 $i \neq = j$ , 有 $d^{(i)} Q d^{(j)} = 0$ , 则称它们是关于 $Q$ 共轭的

引理10.1： $Q$ 为 $n \times n$ 的对称正定矩阵, 如果方向 $d^{(0)}, d^{(1)}, \dots, d^{(k)} \in R^{n}, k ⩽ n -$ 1 非零, 且是关于 $Q$ 共轭的, 那么它们是线性无关的。

共轭方向法

针对 $n$ 维二次型函数的最小化问题:

f (x) = \frac{1}{2} x^{⊤} Q x - x^{⊤} b

其中, $Q = Q^{⊤} > 0, x \in R^{n}$ 。注意, 由于 $Q > 0$ , 因此函数 $f$ 有一个全局极小点, 可通过求解 $Q x = b$ 得到。

基本的共轭方向算法 给定初始点 $x^{(0)}$ 和一组关于 $Q$ 共轭的方向 $d^{(0)}, d^{(1)}, \dots$ , $d^{(n - 1)}$

g^{(k)} α_{k} x^{(k + 1)} = \nabla f (x^{(k)}) = Q x^{(k)} - b = - \frac{g ^{(k) ⊤} d ^{(k)}}{d ^{(k) ⊤} Q d ^{(k)}} = x^{(k)} + α_{k} d^{(k)}

定理10.1：对于任意的初始点 $x^{(0)}$ ，基本的共轭方向算法都能在 $n$ 次迭代之内收敛到唯一的全局极小点 $x^{*}$ ,即 $x^{(n)} = x^{*}$ 。

引理10.2(精确步长)：在共轭方向算法中, 对于所有 $k, 0 ⩽ k ⩽ n - 1, 0 ⩽ i ⩽ k$ , 都有

g^{(k + 1) ⊤} d^{(i)} = 0

扩展子空间定理

共轭方向法满足 $f (x^{(k + 1)}) = min_{α} f (x^{(k)} + α d^{(k)})$ , 而且还能满足 $f (x^{(k + 1)}) = min_{a_{0}, \dots, a_{k}} f (x^{(0)} + \sum_{i = 0}^{k} a_{i} d^{(i)})$ 记 $V_{k} = x^{(0)} + span [d^{(0)}, d^{(1)}, \dots, d^{(k)}]$ 则有 $f (x^{(k + 1)}) = min_{x \in ν_{k}} f (x)$

共轭梯度法

特性：共轭方向法虽然计算效率高，但是需要提供一组 $Q$ 共轭方向，共轭梯度法不需要预先给定 $Q$ 共轭方向，而是随着迭代的进行不断产生 $Q$ 共轭方向。利用上一个搜索方向和目标函数在当前已经产生的搜索方向组成 $Q$ 共轭方向。

计算步骤:

令 $k = 0$ ; 选择初始值 $x^{(0)}$ 。
计算 $g^{(0)} = \nabla f (x^{(0)})$ , 如果 $g^{(0)} = 0$ , 停止迭代; 否则, 令 $d^{(0)} = - g^{(0)}$ 。
计算 $α_{k} = - \frac{g ^{(k) ⊤} d ^{(k)}}{d ^{(k) ⊤} Q d ^{(k)}}$ 。
计算 $x^{(k + 1)} = x^{(k)} + α_{k} d^{(k)}$ 。
计算 $g^{(k + 1)} = \nabla f (x^{(k + 1)})$ , 如果 $g^{(k + 1)} = 0$ , 停止迭代。
计算 $β_{k} = \frac{g ^{(k + 1) ⊤} Q d ^{(k)}}{d ^{(k) ⊤} Q d ^{(k)}}$ 。
计算 $d^{(k + 1)} = - g^{(k + 1)} + β_{k} d^{(k)}$ 。
令 $k := k + 1$ , 回到第 3 步。

共轭梯度法实例

例: $f (x_{1}, x_{2}, x_{3}) = \frac{3}{2} x_{1}^{2} + 2 x_{2}^{2} + \frac{3}{2} x_{3}^{2} + x_{1} x_{3} + 2 x_{2} x_{3} - 3 x_{1} - x_{3}$ 用共轭梯度法求其极小点, 初始点为 $x^{(0)} = [0, 0, 0]^{⊤}$ 。

Step 1: Step 2: Step 3: g^{(0)} = [- 3, 0, - 1]^{⊤} d^{(0)} = - g^{(0)} α_{0} = - \frac{g ^{(0) ⊤} d ^{(0)}}{d ^{(0) ⊤} Q d ^{(0)}} = \frac{10}{36} x^{(1)} = x^{(0)} + α_{0} d^{(0)} = [0.8333, 0, 0.2778]^{⊤} g^{(1)} = \nabla f (x^{(1)}) = [- 0.2222, 0.5556, 0.6667]^{⊤} β_{0} = \frac{g ^{(1) ⊤} Q d ^{(0)}}{d ^{(0) ⊤} Q d ^{(0)}} = 0.08025 d^{(1)} = - g^{(1)} + β_{0} d^{(0)} = [0.4630, - 0.5556, - 0.5864]^{⊤} α_{1} = - \frac{g ^{(1) ⊤} d ^{(1)}}{d ^{(1) ⊤} Q d ^{(1)}} = 0.2187 x^{(2)} = x^{(1)} + α_{1} d^{(1)} = [0.9346, - 0.1215, 0.1495]^{⊤} g^{(2)} = \nabla f (x^{(2)}) = [- 0.04673, - 0.1869, 0.1402]^{⊤} β_{1} = \frac{g ^{(2) ⊤} Q d ^{(1)}}{d ^{(1) ⊤} Q d ^{(1)}} = 0.07075 d^{(2)} = - g^{(2)} + β_{1} d^{(1)} = [0.07948, 0.1476, - 0.1817]^{⊤} α_{2} = - \frac{g ^{(2) ⊤} d ^{(2)}}{d ^{(2) ⊤} Q d ^{(2)}} = 0.8231 x^{(3)} = x^{(2)} + α_{2} d^{(2)} = [1.000, 0.000, 0.000]^{⊤} g^{(3)} = \nabla f (x^{(3)}) = 0 即 x^{*} = x^{(3)}

非线性共轭梯度法

理论上把线性共轭梯度法中的矩阵 Q 换成黑塞矩阵。但是，对一般的非线性函数，每次迭代都必须重新计算黑塞矩阵，这需要非常大的运算量所以需要对其进行修改，消除每次迭代中进行求黑塞矩阵的环节。

Hestenes-Stiefel公式：

β_{k} = \frac{g ^{(k + 1) ⊤} [ g ^{(k + 1)} - g ^{(k)} ]}{d ^{(k) ⊤} [ g ^{(k + 1)} - g ^{(k)} ]}

Polak-Ribiere公式: 将 $Hes t e n es - St i e f e l$ 公式的分母部分展开。

β_{k} = \frac{g ^{(k + 1) ⊤} [ g ^{(k + 1)} - g ^{(k)} ]}{g ^{(k) ⊤} g ^{(k)}}

Fletcher_reeves公式：将 $P o l ak - R ibi ere$ 公式的分子部分展开。

β_{k} = \frac{g ^{(k + 1) ⊤} g ^{(k + 1)}}{g ^{(k) ⊤} g ^{(k)}}

对于二次型问题，这三个公式是等价的；但是。当目标函数为一般的非线性函数时，这三个公式并不一致。

拟牛顿法

牛顿法的缺陷:

当目标函数为一般性的非线性函数时，牛顿法不能保证能够从任意起始点 $x^{(0)}$ 收敛到函数的极小点。
必须计算黑塞矩阵 $F (x^{(k)})$ 和求解方程 $F (x^{(k)}) d^{(k)} = - g^{(k)}$ 上进行一维搜索。
黑塞矩阵是非正定或奇异的。

拟牛顿法的思路：设计黑塞矩阵的近似矩阵来代替黑塞矩阵。此时需要用到目标函数值和梯度。令 $H_{0}, H_{1}, H_{2}, \dots$ 表示对应黑塞矩阵的逆的一系列近似矩阵。则 $H_{k}$ 满足：

对称正定。(保证函数值迭代后下降)
从 $H_{k - 1}$ 到 $H_{k}$ 计算量较小。
$H_{k}$ 与对应的黑塞矩阵近似。

分析: 黑塞矩阵性质 (即二阶导)： 1维：近似计算 $f^{''} (x^{(k)}) : \frac{f ^{'} ( x ^{(k)} ) - f ^{'} ( x ^{(k - 1)} )}{x ^{(k)} - x ^{(k - 1)}}$ $f^{'} (x^{(k - 1)}) \approx f^{'} (x^{(k)}) + f^{''} (x^{(k)}) (x^{(k - 1)} - x^{(k)})$ n维: $\nabla f (x^{(k - 1)}) \approx \nabla f (x^{(k)}) + \nabla^{2} f (x^{(k)}) (x^{(k - 1)} - x^{(k)})$ 记 $Δ g^{(k - 1)} = \nabla f (x^{(k)}) - \nabla f (x^{(k - 1)}), Δ x^{(k - 1)} = x^{(k)} - x^{(k - 1)}$ 简化为: $Δ g^{(k - 1)} \approx \nabla^{2} f (x^{(k)}) Δ x^{(k - 1)}$ 或 $[\nabla^{2} f (x^{(k)})]^{- 1} Δ g^{(k - 1)} \approx Δ x^{(k - 1)}$ 因此： $H_{k} Δ g^{(k - 1)} = Δ x^{(k - 1)}$

拟牛顿法迭代公式:

d^{(k)} α_{k} x^{(k + 1)} = - H_{k} g^{(k)} = α ⩾ 0 ar g min f (x^{(k)} + α d^{(k)}) = x^{(k)} + α_{k} d^{(k)}

其中, 矩阵 $H_{0}, H_{1}, H_{2}, \dots$ 是 $n \times n$ 对称实矩阵，是对黑塞矩阵的逆的近似。目标函数为二次型函数时, 它们必须满足

H_{k + 1} Δ g^{(i)} = Δ x^{(i)}, 0 ⩽ i ⩽ k

其中, $Δ x^{(i)} = x^{(i + 1)} - x^{(i)} = α_{i} d^{(i)}, Δ g^{(i)} = g^{(i + 1)} - g^{(i)} = Q Δ x^{(i)}$ 。实际上, 拟牛顿法也是一种共轭方向法, 接下来给出证明。

定理 11. 1: 将拟牛顿法应用到二次型问题中, 黑塞矩阵为 $Q = Q^{⊤}$ , 对于 $0 ⩽ k < n - 1$ , 有

H_{k + 1} Δ g^{(i)} = Δ x^{(i)}, 0 ⩽ i ⩽ k

其中, $H_{k + 1} = H_{k + 1}^{⊤}$ 。如果 $α_{i} \neq = 0, 0 ⩽ i ⩽ k$ , 那么 $d^{(0)}, d^{(1)}, \dots, d^{(k + 1)}$ 是 $Q$ 共轭的。

从矩阵 $H_{k}$ 必须满足的方程来看， $H_{k}$ 并不能唯一确定，常见的矩阵 $H_{k + 1}$ 是通过在矩阵 $H_{k}$ 上增加一个修正项来得到。(秩1修正、DFP，BFGS)

秩1修正公式

H_{k + 1} = H_{k} + a_{k} z^{(k)} z^{(k) ⊤}

H_{k + 1} Δ g^{(k)} = Δ x^{(k)}

在给定 $H_{k}, Δ g^{(k)}, Δ x^{(k)}$ 后, 确定 $a_{k}$ 和 $z^{(k)}$

H_{k + 1} = H_{k} + \frac{( Δ x ^{(k)} - H _{k} Δ g ^{(k)} ) ( Δ x ^{(k)} - H _{k} Δ g ^{(k)} ) ^{⊤}}{Δ g ^{(k) ⊤} ( Δ x ^{(k)} - H _{k} Δ g ^{(k)} )}

算法步骤：

令 $k = 0$ ; 选择初始点 $x^{(0)}$ , 任选一个对称正定实矩阵 $H_{0}$ 。
如果 $g^{(k)} = 0$ , 停止迭代; 否则, 令 $d^{(k)} = - H_{k} g^{(k)}$ 。
计算 $α_{k} = α ⩾ 0 ar g min f (x^{(k)} + α d^{(k)}) x^{(k + 1)} = x^{(k)} + α_{k} d^{(k)}$
计算 $Δ x^{(k)} = α_{k} d^{(k)}$

Δ g^{(k)} H_{k + 1} = g^{(k + 1)} - g^{(k)} = H_{k} + \frac{( Δ x ^{(k)} - H _{k} Δ g ^{(k)} ) ( Δ x ^{(k)} - H _{k} Δ g ^{(k)} ) ^{⊤}}{Δ g ^{(k) ⊤} ( Δ x ^{(k)} - H _{k} Δ g ^{(k)} )}

令 $k := k + 1$ , 回到第 2 步。

秩1校正公式实例

例：用秩 1 算法求函数 $f$ 极小点。 $f (x_{1}, x_{2}) = x_{1}^{2} + \frac{1}{2} x_{2}^{2} + 3$ 初始值为 $x^{(0)} = [1, 2]^{⊤}, H_{0} = I_{2}$ 解:

g^{(k)} = [2001] x^{(k)}

Step 1:

d^{(0)} = - g^{(0)} = [- 2, - 2]^{⊤} α_{0} = α ⩾ 0 ar g min f (x^{(0)} + α d^{(0)}) = - \frac{g ^{(0) ⊤} d ^{(0)}}{d ^{(0) ⊤} Q d ^{(0)}} = \frac{2}{3} x^{(1)} = x^{(0)} + α_{0} d^{(0)} = [- \frac{1}{3}, \frac{2}{3}]^{⊤}

Step 2:

Δ x^{(0)} = α_{0} d^{(0)} = [- \frac{4}{3}, - \frac{4}{3}]^{⊤} g^{(1)} = Q x^{(1)} = [- \frac{2}{3}, \frac{2}{3}]^{⊤} Δ g^{(0)} = g^{(1)} - g^{(0)} = [- \frac{8}{3}, - \frac{4}{3}]^{⊤} H_{1} = H_{0} + \frac{( Δ x ^{(0)} - H _{0} Δ g ^{(0)} ) ( Δ x ^{(0)} - H _{0} Δ g ^{(0)} ) ^{⊤}}{Δ g ^{(0) ⊤} ( Δ x ^{(0)} - H _{0} Δ g ^{(0)} )} = [\frac{1}{2} 0 01] d^{(1)} = - H_{1} g^{(1)} = [\frac{1}{3}, - \frac{2}{3}]^{⊤} α_{1} = - \frac{g ^{(1) ⊤} d ^{(1)}}{d ^{(1) ⊤} Qd ^{(1)}} = 1 x^{(2)} = x^{(1)} + α_{1} d^{(1)} = [0, 0]^{⊤} g^{(2)} = 0, 也就是说 x^{(2)} = x^{*}

DFP算法

秩一修正公式缺陷

秩1算法产生的矩阵 $H_{k + 1}$ 可能非正定, 将导致 $d^{(k + 1)}$ 可能不是下降方向(即使是二次型问题）。
秩 1 公式的分母如果接近 0 ,会出现计算困难。

寻找 $F (x^{(k)})^{- 1}$ 的近似具体公式:

Δ x^{(k)} = α_{k} d^{(k)} Δ g^{(k)} = g^{(k + 1)} - g^{(k)} H_{k + 1} = H_{k} + \frac{Δ x ^{(k)} Δ x ^{(k) ⊤}}{Δ x ^{(k) ⊤} Δ g ^{(k)}} - \frac{[ H _{k} Δ g ^{(k)} ] [ H _{k} Δ g ^{(k)} ] ^{⊤}}{Δ g ^{(k) ⊤} H _{k} Δ g ^{(k)}}

使用秩一算法或者 $D FP$ 算法求解二次型问题时，黑塞矩阵为 $Q = Q^{⊤}$ 有 $H_{k + 1} Δ g^{(i} = Δ x^{(i)}$ ， $0 \leq i \leq k$

DFP算法特性：
在 $D FP$ 算法中，只要矩阵 $H_{k}$ 正定， $H_{k + 1}$ 就一定是正定的。
当矩阵 $H_{k}$ 接近为奇异矩阵时，迭代有时无法展开。

DFP公式实例

例：用 DFP 算法求函数 $f (x) = \frac{1}{2} x^{⊤} [4222] x - x^{⊤} [- 1 1], x \in R^{2}$ 的极小点。初始点为 $x^{(0)} = [0, 0]^{⊤}, H_{0} = I_{2}$ 。 step 1:

g^{(0)} = [1, - 1]^{⊤} d^{(0)} = - H_{0} g^{(0)} = [- 1 1] α_{0} = α ⩾ 0 ar g min f (x^{(0)} + α d^{(0)}) = 1 x^{(1)} = x^{(0)} + α_{0} d^{(0)} = [- 1, 1]^{⊤} g^{(k)} = [4222] x^{(k)} - [- 1 1]

step 2:

g^{(1)} = [4222] [- 1 1] - [- 1 1] = [- 1 - 1] Δ g^{(0)} = g^{(1)} - g^{(0)} = [- 2, 0]^{⊤} Δ x^{(0)} = x^{(1)} - x^{(0)} = [- 1, 1]^{⊤} H_{1} = H_{0} + \frac{Δ x ^{(0)} Δ x ^{(0) ⊤}}{Δ x ^{(0) ⊤} Δ g ^{(0)}} - \frac{( H _{0} Δ g ^{(0)} ) ( H _{0} Δ g ^{(0)} ) ^{⊤}}{Δ g ^{(0) ⊤} H _{0} Δ g ^{(0)}} = [\frac{1}{2} - \frac{1}{2} - \frac{1}{2} \frac{3}{2}] d^{(1)} = - H_{1} g^{(1)} = [0, 1]^{⊤} α_{1} = α ⩾ 0 ar g min f (x^{(1)} + α d^{(1)}) = \frac{1}{2} x^{(2)} = x^{(1)} + α_{1} d^{(1)} = [- 1, 3/2]^{⊤}

函数 $f$ 为两变量二次型函数, $x^{(2)}$ 就是极小点 $x^{*}$ 。可以验证 $d^{(0)}$ 和 $d^{(1)}$ 是 $Q$ 共轭方向。

BFSGS公式

旧思路：根据 $Δ g^{(i)} = Q Δ x^{(i)}, 0 ⩽ i ⩽ k$ 黑塞矩阵逆矩阵的近似矩阵需要满足以下条件:

H_{k + 1} Δ g^{(i)} = Δ x^{(i)}, 0 ⩽ i ⩽ k

基于上述等式, 可以构造黑塞矩阵逆矩阵 $Q^{- 1}$ 的近似矩阵的更新公式。如秩1公式和DFP公式都是据此而来的。

新思路: 除了构造 $Q^{- 1}$ 的近似矩阵, 还可以构造矩阵 $Q$ 的近似矩阵令矩阵 $B_{k}$ 表示在第 $k$ 次迭代中关于矩阵 $Q$ 的估计则 $B_{k + 1}$ 应该满足 $Δ g^{(i)} = B_{k + 1} Δ x^{(i)}, 0 ⩽ i ⩽ k$

由DFP公式: $H_{k + 1}^{DFP} = H_{k} + \frac{Δ x ^{(k)} Δ x ^{(k) ⊤}}{Δ x ^{(k) ⊤} Δ g ^{(k)}} - \frac{H _{k} Δ g ^{(k)} Δ g ^{(k) ⊤} H _{k}}{Δ g ^{(k) ⊤} H _{k} Δ g ^{(k)}}$ 用对称性，得BFGS公式

B_{k + 1} = B_{k} + \frac{Δ g ^{(k)} Δ g ^{(k) ⊤}}{Δ g ^{(k) ⊤} Δ x ^{(k)}} - \frac{B _{k} Δ x ^{(k)} Δ x ^{(k) ⊤} B _{k}}{Δ x ^{(k) ⊤} B _{k} Δ x ^{(k)}}

注: DFP公式与BFGS公式称为互补的（或对偶的）

BFGS公式的逆矩阵

(B_{k + 1})^{- 1} = (B_{k} + \frac{Δ g ^{(k)} Δ g ^{(k) T}}{Δ g ^{(k) ⊤} Δ x ^{(k)}} - \frac{B _{k} Δ x ^{(k)} Δ x ^{(k) ⊤} B _{k}}{Δ x ^{(k) ⊤} B _{k} Δ x ^{(k)}})^{- 1}

原理：应用两次 Sherman-Morison公式即可

🪴 Quartz 4.0

Explorer