次元削減

次元削減（じげんさくげん、英: Dimensionality reduction、dimension reduction）とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。

高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。

次元削減は、信号処理、音声認識、ニューロインフォマティクス、バイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である^[1]。

次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択と特徴抽出に分けられる^[2] 。次元削減は、ノイズ除去、データの可視化、クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。

→詳細は「特徴抽出」を参照

特徴抽出とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析のように線形であるものもあるが、多くは非線形のアプローチである^[4]^[5]。多次元のデータに対しては、多重線形部分空間法（英語版）によって次元削減を行うことにより、テンソル表現（英語版）を利用できる^[6]。

主成分分析

→詳細は「主成分分析」を参照

次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。実際には、データの共分散（あるいは相関係数）の行列を作り、その固有ベクトルを計算する。最大の固有値に対応する固有ベクトル（主成分）は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。主成分分析により、少数の固有ベクトルで張られる空間に次元を削減^{[注釈 1]}できる^[要出典]。

非負値行列因子分解（NMF）

→詳細は「非負値行列因子分解」を参照

非負値行列因子分解（英語版）（英: Non-negative matrix factorization、NMFとも）は非負の行列を2つの非負の行列の積に分解する方法で、天文学など^[7]^[8]非負値しか取り扱わない分野で有力な方法とされている^[9]^[10]。 NMFはLeeとセバスチャン・スン（英語版）によって効率的な乗法アルゴリズムが提案され^[11]^[9]て以来よく知られており、継続的に拡張・応用がなされている^[11]。例としては、不確さを含めた取り扱い^[7]、欠損データを考慮した並列計算^[12]、NMFの安定性と線形性へと繋がる逐次的な構成^[8]^[12]、画像処理における欠損データを取り扱う更新則^[13]等。

オートエンコーダ

→詳細は「オートエンコーダ」を参照

オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される^[14]。

t-SNE

→詳細は「t分布型確率的近傍埋め込み法」を参照

t分布型確率的近傍埋め込み法（英: t-SNE）は、高次元データセットの可視化に有用な非線形の次元削減手法である。必ずしも密度や距離が保存されるわけではないため、クラスタリングや外れ値の検出といった用途には推奨されない^[15]。

特徴選択

特徴抽出

主成分分析

非負値行列因子分解（NMF）

オートエンコーダ

t-SNE

脚注

関連項目

Wikiwand - on