Remove ads
ウィキペディアから
次元削減(じげんさくげん、英: Dimensionality reduction、dimension reduction)とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。
高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。
次元削減は、信号処理、音声認識、ニューロインフォマティクス、バイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である[1]。
次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択と特徴抽出に分けられる[2] 。次元削減は、ノイズ除去、データの可視化、クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。
特徴選択とは、入力変数(特徴量、属性と呼ばれることもある)から有用な部分集合を見つけようとする手法のことである。フィルタ(英: filter strategy、例としては決定木の情報利得等。)法、ラッパー法(英: wrapper strategy、例としては精度を最大化するような探索等。)、埋め込み法(英: embedded strategy、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法)等、大きく3つの戦略に分けられる。
特徴抽出とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析のように線形であるものもあるが、多くは非線形のアプローチである[4][5]。多次元のデータに対しては、多重線形部分空間法によって次元削減を行うことにより、テンソル表現を利用できる[6]。
次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。 実際には、データの共分散(あるいは相関係数)の行列を作り、その固有ベクトルを計算する。 最大の固有値に対応する固有ベクトル(主成分)は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。 勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。 主成分分析により、少数の固有ベクトルで張られる空間に次元を削減[注釈 1]できる[要出典]。
非負値行列因子分解(英: Non-negative matrix factorization、NMFとも)は非負の行列を2つの非負の行列の積に分解する方法で、天文学など[7][8]非負値しか取り扱わない分野で有力な方法とされている[9][10]。 NMFはLeeとセバスチャン・スンによって効率的な乗法アルゴリズムが提案され[11][9]て以来よく知られており、継続的に拡張・応用がなされている[11]。例としては、不確さを含めた取り扱い[7]、欠損データを考慮した並列計算[12]、NMFの安定性と線形性へと繋がる逐次的な構成[8][12]、画像処理における欠損データを取り扱う更新則[13]等。
オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される[14]。
t分布型確率的近傍埋め込み法(英: t-SNE)は、高次元データセットの可視化に有用な非線形の次元削減手法である。 必ずしも密度や距離が保存されるわけではないため、クラスタリングや外れ値の検出といった用途には推奨されない[15]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.