データセット

データの集合 ウィキペディアから

データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]

オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータル英語版は、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。

属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度英語版が含まれる[5]

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]

統計学においては、データセットは通常、母集団サンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]

古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

  • アヤメの花データセットロナルド・フィッシャーによって1936年に導入された多変量データセット[9]
  • MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
  • Categorical data analysisAn Introduction to Categorical Data Analysis(Alan Agresti、2019年)で用いられているデータセット。
  • Robust statisticsRobust Regression and Outlier DetectionRousseeuw英語版、 Leroy、1986年)で使用されているデータセット。
  • Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
  • Extreme valuesAn Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
  • Bayesian Data Analysis – 同名の本(A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年)で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
  • アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

関連項目

脚注

参考文献

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.