Manifold learning (多様体学習)のAlgorithmを比較した論文です。
多様体(manifold)とは、局所的にはユークリッド空間とみなせる位相空間のことをいいます。
例えば、地球は丸いので、地球の表面すべてを一度に2次元の地図で表現しようとすると、繋ぎ目で重複が現れたり歪みが生じたりします。
しかし、局所的にみることによって2次元座標で地図の表現ができるようになります。
あるデータにも同じことが言えて、ものすごく高次元な空間にあるデータでも、実質的には低次元で表現できる場合があります。
if data lies in a 100-dimensional space, one cannot get an intuitive feel for what the data looks like.
4次元以上の高次元のデータの場合、視覚化できないので実際にデータがどうなっているか分かりにくかったり、コンピュータで計算をするのに、ものすごく時間がかかることがあります。
機械学習やデータマイニングでは、不要な情報を捨てて、必要な情報を抽出することはいろいろな意味で重要です。
高次元のデータをうまく表現できるように低次元のデータに変換することを次元圧縮(dimension reduction)といいます。
(書きかけ)
多様体の定義
PCA
線形部分空間への射影のみ
- Isomap
- Locally Linear Embedding (LLE)
- Laplacian Eigenmaps
- Semidefinite Embedding (SDE)
Algorithms for manifold learning (L.Cayton, 2005)