分類 (統計学)

分類（ぶんるい、英: classification）や統計的分類や統計的識別とは、統計学において、データを複数のクラス（グループ）に分類すること。2つのクラスに分ける事を二項分類や二値分類、多数のクラスに分ける事を多クラス分類という。Y = f(X) というモデルを適用する際に、Y が離散であれば分類、連続値であれば回帰である。

個体をクラス分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例（英: training set）を用いる。

形式的に表すと、次のようになる。訓練データ $\{(\mathbf {x_{1}} ,y_{1}),\dots ,(\mathbf {x_{n}} ,y_{n})\}$ から、オブジェクト $\mathbf {x} \in {\mathcal {X}}$ から分類ラベル $\mathbf {y} \in {\mathcal {Y}}$ へマップする分類器（英: classifier、識別器とも） $h:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、 $\mathbf {x_{i}}$ は具体的な電子メールの例であり、 $y$ は "Spam" か "Non-Spam" のどちらかである。

統計的分類アルゴリズムは主にパターン認識システムなどで使われる。

注: 群集生態学で言う「分類; classification」という用語は、一般に（たとえば機械学習で）データ・クラスタリングと呼ばれているものと同じものを指す。詳しくは教師なし学習などを参照されたい。