Algorithms for manifold learning (L.Cayton, 2005)

Manifold learning (多様体学習)のAlgorithmを比較した論文です。

多様体(manifold)とは、局所的にはユークリッド空間とみなせる位相空間のことをいいます。

例えば、地球は丸いので、地球の表面すべてを一度に２次元の地図で表現しようとすると、繋ぎ目で重複が現れたり歪みが生じたりします。

しかし、局所的にみることによって２次元座標で地図の表現ができるようになります。

あるデータにも同じことが言えて、ものすごく高次元な空間にあるデータでも、実質的には低次元で表現できる場合があります。

if data lies in a 100-dimensional space, one cannot get an intuitive feel for what the data looks like.

4次元以上の高次元のデータの場合、視覚化できないので実際にデータがどうなっているか分かりにくかったり、コンピュータで計算をするのに、ものすごく時間がかかることがあります。

機械学習やデータマイニングでは、不要な情報を捨てて、必要な情報を抽出することはいろいろな意味で重要です。
高次元のデータをうまく表現できるように低次元のデータに変換することを次元圧縮(dimension reduction)といいます。

(書きかけ)

多様体の定義

PCA

線形部分空間への射影のみ

情報工学とその周辺