データセット
データの集合 ウィキペディアから
Remove ads
データの集合 ウィキペディアから
データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]。
オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータルは、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。
いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度が含まれる[5]。
データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]。
統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]。
統計学の文献では、古典的なデータセットが広く使用されている。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.