概要
のデータからなる複数の標本に対して、線形式で最も説明性の高いものを求める。
そのために、各データのに線形式を適用して得られた値との差(残差)の平方和が最小となるような係数を求める(最小二乗法)。
定式化
(1)
ここで残差を最小化するを求めるために、それぞれで偏微分する。
(2)
展開して
(3)
各和の記号を新たに定義し、行列表示で表すと、
(4)
回帰式の係数
式(4)を解くと以下を得る。
(5)
あるいは式(5)については以下のようにも表せる。ただし以下の式で、、
(6)
(7)
決定係数
全変動・回帰変動・残差変動
の回帰式による推定値をで表す。
ここで、によって、以下の変動が定義される。
- 全変動。平均からのデータのばらつき。
- 回帰変動。平均からのばらつきのうち、回帰式によって説明される部分。
- 残差変動。平均からのばらつきのうち、回帰式によって説明されない部分。
当然、[全変動]=[回帰変動]+[残差変動]となることはすぐに確認できる。
また、これら3つの変動の2乗和をTSS(Total Sum of Squares)、ESS(Explained Sum of Squares、RSS(Residual Sum of Squares)として、以下のように定義する。
(8)
このとき、それぞれについて以下のように表せる。
(9)
これらから、全変動・回帰変動・残差変動の2乗和についても、以下の関係が成り立つことがわかる。
(10)
補足~ESS
式(9) のESSの確認。以下のように、線形変換された分散から導ける。
(11)
あるいは、以下のように地道に計算しても確認できる。
(12)
ここで
(13)
これを代入して、
(14)
さらにを考慮して、
(15)
補足~RSS
式(9) のRSSの確認。
(16)
決定係数
決定係数は、全変動のうち回帰変動でどれだけ説明できるか(残差変動が少ないか)を表したもので、通常で表される。
(17)
この値は、残差変動が小さいほど1に近づき、すなわち全変動が回帰変動で全く説明できないときに0となる。