次元削減

ウィキペディアから

次元削減

次元削減(じげんさくげん、: Dimensionality reductiondimension reduction)とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。

MNISTと呼ばれる09の数字の画像を含むデータセットに、主成分分析(PCA、左図)と線形オートエンコーダlinear autoencoder、右図)を用いて次元削減した結果を図示したもの。

高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。

次元削減は、信号処理音声認識ニューロインフォマティクスバイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である[1]

次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択特徴抽出に分けられる[2] 。次元削減は、ノイズ除去データの可視化クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。

特徴選択

特徴選択とは、入力変数(特徴量、属性と呼ばれることもある)から有用な部分集合を見つけようとする手法のことである。フィルタ(: filter strategy、例としては決定木の情報利得英語版等。)法、ラッパー法(: wrapper strategy、例としては精度を最大化するような探索等。)、埋め込み法(: embedded strategy、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法)等、大きく3つの戦略に分けられる。

回帰分類といったデータ解析においては、元の空間よりも次元を削減した空間で行う方がより精度が高まるとされている[3]

特徴抽出

要約
視点

特徴抽出とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析のように線形であるものもあるが、多くは非線形のアプローチである[4][5]。多次元のデータに対しては、多重線形部分空間法英語版によって次元削減を行うことにより、テンソル表現英語版を利用できる[6]

主成分分析

次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。 実際には、データの共分散(あるいは相関係数)の行列を作り、その固有ベクトルを計算する。 最大の固有値に対応する固有ベクトル(主成分)は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。 勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。 主成分分析により、少数の固有ベクトルで張られる空間に次元を削減[注釈 1]できる[要出典]

非負値行列因子分解(NMF)

非負値行列因子分解英語版: Non-negative matrix factorization、NMFとも)は非負の行列を2つの非負の行列の積に分解する方法で、天文学など[7][8]非負値しか取り扱わない分野で有力な方法とされている[9][10]。 NMFはLeeとセバスチャン・スン英語版によって効率的な乗法アルゴリズムが提案され[11][9]て以来よく知られており、継続的に拡張・応用がなされている[11]。例としては、不確さを含めた取り扱い[7]、欠損データを考慮した並列計算[12]、NMFの安定性と線形性へと繋がる逐次的な構成[8][12]画像処理における欠損データを取り扱う更新則[13]等。

オートエンコーダ

Thumb
オートエンコーダの模式図。エンコーダにより次元削減され、デコーダは次元削減された表現から元の次元のデータを復元する。

オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される[14]

t-SNE

t分布型確率的近傍埋め込み法(: t-SNE)は、高次元データセット可視化に有用な非線形の次元削減手法である。 必ずしも密度や距離が保存されるわけではないため、クラスタリング外れ値の検出といった用途には推奨されない[15]

脚注

関連項目

Wikiwand - on

Seamless Wikipedia browsing. On steroids.