データセット

属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度（英語版）が含まれる^[5]。

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある（例えば人の身長は、センチメートルという単位を用いて数値で表される）が、他方でカテゴリのような文字列で表現されるラベルである場合もある（例えば、ある人物が属する民族は数値では表せない^{[注釈 1]}）。より一般的には、値は尺度のいずれかに当てはまる^[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある^[7]。

統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある^[8]。

古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

アヤメの花データセット – ロナルド・フィッシャーによって1936年に導入された多変量データセット^[9]。
MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
Categorical data analysis – An Introduction to Categorical Data Analysis（Alan Agresti、2019年）で用いられているデータセット。
Robust statistics – Robust Regression and Outlier Detection（Rousseeuw（英語版）、 Leroy、1986年）で使用されているデータセット。
Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
Extreme values – An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
Bayesian Data Analysis – 同名の本（A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年）で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

データセット

属性

古典的なデータセット

関連項目

脚注

参考文献

外部リンク

Wikiwand - on