非線性最小二乘法

非線性最小二乘法是非線性形式的最小二乘法，用包含 $n$ 個未知參數的非線性模型擬合 $m$ 個觀測值（ $m\geq n$ ），可用於某些形式的非線性回歸。該方法的基礎是使用線性模型近似並通過連續迭代來優化參數。它與線性最小二乘法既有相同之處、也有一些顯著差異。

理論

考慮一組 $(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})$ 共 $m$ 個數據點以及曲線（模型函數） ${\hat {y}}=f(x,{\boldsymbol {\beta }})$ 。該曲線同時取決於 $x$ 與 ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})$ 共 $n$ 個參數（滿足 $m\geq n$ ）。目標是找到在最小二乘意義上與數據點擬合最好的曲線所對應的參數 ${\boldsymbol {\beta }}$ ，即最小化平方和

S=\sum _{i=1}^{m}r_{i}^{2},

其中殘差 $r i$ 的定義為

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}),\qquad (i=1,2,\dots ,m).

$S$ 取最小值時的梯度為零。由於模型包含 $n$ 個參數，因此可得到 $n$ 個梯度方程：

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\quad (j=1,\ldots ,n).

在非線性系統中，偏導數 ${\textstyle {\frac {\partial r_{i}}{\partial \beta _{j}}}}$ 同時是自變量 $x$ 和參數 ${\boldsymbol {\beta }}$ 的函數，因此這些梯度方程通常沒有封閉解。因而必須為參數選擇初始值用以迭代求解。迭代表達式為

\beta _{j}\approx \beta _{j}^{k+1}=\beta _{j}^{k}+\Delta \beta _{j}.

其中， $k$ 是迭代次數， $\Delta {\boldsymbol {\beta }}$ 則是偏移向量。每次迭代時，使用關於 ${\boldsymbol {\beta }}^{k}$ 的一階泰勒級數展開以線性化模型：

f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }}^{k})}{\partial \beta _{j}}}\left(\beta _{j}-\beta _{j}^{k}\right)=f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}J_{ij}\,\Delta \beta _{j}.

雅可比矩陣 $J$ 是常數、自變量與參數的函數，因此每次迭代時的 $J$ 並不固定。對線性化模型而言，

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-J_{ij},

殘差的表達式則為

\Delta y_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k}),

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})=\left(y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k})\right)+\left(f(x_{i},{\boldsymbol {\beta }}^{k})-f(x_{i},{\boldsymbol {\beta }})\right)\approx \Delta y_{i}-\sum _{s=1}^{n}J_{is}\Delta \beta _{s}.

將上述表達式代入梯度方程，可以得到

-2\sum _{i=1}^{m}J_{ij}\left(\Delta y_{i}-\sum _{s=1}^{n}J_{is}\ \Delta \beta _{s}\right)=0,

以上方程可化簡為 $n$ 個聯立的線性方程，稱為正規方程（normal equations）：

\sum _{i=1}^{m}\sum _{s=1}^{n}J_{ij}J_{is}\ \Delta \beta _{s}=\sum _{i=1}^{m}J_{ij}\ \Delta y_{i}\qquad (j=1,\dots ,n).

正規方程可用矩陣表示法寫成

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\ \Delta \mathbf {y} .

上述方程是使用高斯-牛頓算法（英語：Gauss–Newton algorithm）求解非線性最小二乘問題的的基礎。

需要注意的是雅可比矩陣定義中導數的符號約定。某些文獻中的 $J$ 可能與此處的定義相差一個負號。

權重擴展

不同數據點（觀測結果）的可靠性並不一定相同，此時可使用加權平方和

S=\sum _{i=1}^{m}W_{ii}r_{i}^{2}.

權重矩陣 $W$ 是一個對角矩陣，理想情況下每個權重係數應等於觀測誤差方差的倒數。^[1]此時，正規方程可擴展為

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\mathbf {W} \ \Delta \mathbf {y} .

參見

註釋

^ 此處假定所有觀測點是相互獨立的。如果觀測點之間相關時，加權平方和可表示為 $S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}.$ 此時權重矩陣的理想值應為觀測誤差協方差矩陣的逆。

參考文獻

Kelley, C. T. Iterative Methods for Optimization (PDF). SIAM Frontiers in Applied Mathematics no 18. 1999 [2023-03-05]. ISBN 0-89871-433-8. （原始內容存檔 (PDF)於2023-03-29）.
Strutz, T. Data Fitting and Uncertainty : A Practical Introduction to Weighted Least Squares and Beyond 2nd. Springer Vieweg. 2016. ISBN 978-3-658-11455-8.

[1] 此處假定所有觀測點是相互獨立的。如果觀測點之間相關時，加權平方和可表示為 $S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}.$ 此時權重矩陣的理想值應為觀測誤差協方差矩陣的逆。

[1]