主成分分析の学習
mathTable of Contents
#+File Created:
#+Last Updated:
主成分分析の学習のきろく.
1 参考 URL
http://www-pse.cheme.kyoto-u.ac.jp/~kano/document/text-PCA.pdf
もう見れない様子
改めて探したらこっちに移ってた.
http://manabukano.brilliant-future.net/document/text-PCA.pdf
以下は, この pdf をよみながら勉強した記録である.
2 データ
(自分用)
以下のようなデータを想定する.
サンプル(測定サンプル)の id:
測定値(化合物) の id:
サンプル 1 の測定値
サンプル 2 の測定値
…
サンプル N の測定値
註: それぞれの変数
すなわち,
(上の式で列の足し算を計算してこれを 0 とするように変数変換しておく).
行列
測定値の種類(化合物.
3 求めたいもの
情報の損失を最小限に抑えた新しい軸を作成する.
= 新しい軸(主成分)で計測したサンプル値の分散が最大となるように, 新しい軸を定める.
4 主成分軸の計算
測定値の種類(化合物.
列名
主成分を以下のようにおく.
第一主成分
第
(係数の自乗和 = 1 に制限することで
5 第一主成分
まず第一主成分を求める.
第一主成分の結合係数
上の標記を用いると,
の条件は
と書ける.
サンプル
に対する第一主成分
これは, 以下のように書ける.
第一主成分の分散
但し
第一主成分はその分散
Lagrange の未定乗数法を用いるとよい.
を考え,
但し,
上の式は固有値問題にほかならない. 即ち
でないといけない.
固有値は,
(大きい順から
対応する固有ベクトルのうちのどれかが
一方, 第一主成分で計測した値の分散
1 行目から 2 行目への変換は,
すなわち, 主成分で計測した値の分散は固有値と等しくなる.
第一主成分はそれで計測した値の分散が最も大きいものであるので,
第一主成分
6 寄与率(proportion)
http://manabukano.brilliant-future.net/document/text-PCA.pdf
主成分分析とは少数の統合的指標(主成分)を用いて変数間の関係や特徴を把握するための統計的手法である. 従って, 各主成分が元のデータに含まれる特徴をどの程度表現しているのか, あるいは何個の主成分を採用すれば元のデータに含まれる特徴を十分に表現できるのかを知ることが必要になる. このための指標として, 寄与率および累積寄与率がある.
合計
一方, 第
(一般に, すべての固有値の和=行列のトレース)
従って, 元の変数で計測した値の分散の総和 = 主成分で計測した値の分散の総和 となる.
そこで, 第
第
を利用できる.
第
は累積寄与率(cumulative proportion) と呼ばれる.
7 因子負荷量(factor loading)
http://manabukano.brilliant-future.net/document/text-PCA.pdf
主成分は各変数の線形結合として与えられるので, その解釈のためには, 主成分と各変数との相関を 把握することにより主成分に強く影響を及ぼす変数を特定することが有効である.
そのための指標 因子負荷量は, 主成分と変数との相関係数として定義される.
第
ただし,
主成分
より,
となる.
また,
平均は 0 で規格化されてるからこの値が共分散となる.
これを展開していくと,
2 行目から 3 行目は
4 行目から 5 行目は,
6 行目から 7 行目は,
従って, 主成分
(主成分
となる.
8 まとめ
8.1 主成分分析
固有ベクトル
8.2 主成分得点
主成分
8.3 寄与率
1 つの主成分が元データの特徴をどの程度表現できてるか.
8.4 因子負荷量
主成分軸と元の軸の相関係数
主成分