Remove ads
有用な情報を発見し、結論を報告し、意思決定を支援することを目的として、データを検査し、クリーニングや変換を経て、モデル化する一連のプロセスである。 ウィキペディアから
データ解析(データかいせき、英: data analysis)は、データ分析(データぶんせき)とも呼ばれ、有用な情報を発見し、結論を報告し、意思決定を支援することを目的として、データを検査し、クリーニングや変換を経て、モデル化する一連のプロセスである[1]。データ解析には多数の側面とアプローチがあり、色々な名称のもとで多様な手法を包含し、ビジネス、科学、社会科学のさまざまな領域で用いられている[2]。今日のビジネス界において、データ解析は、より科学的な意思決定を行い、ビジネスの効率的な運営に貢献する役割を担っている[3]。
データマイニングは、(純粋な記述的な目的ではなく)予測的な目的で統計的モデリングと知識獲得に重点を置いた固有のデータ解析技術である。これに対し、ビジネスインテリジェンスは、主にビジネス情報に重点を置いて、集計に大きく依存するデータ解析を対象としている[4]。統計学的な用途では、データ解析は記述統計学 (en:英語版) 、探索的データ解析(EDA)、確認的データ解析(仮説検定)(CDA)に分けられる[5]。EDAはデータの新たな特徴を発見することに重点を置き、CDAは既存の仮説の確認または反証に焦点を当てる[6][7]。予測分析は、予測的な発生予報あるいは分類のための統計モデルの応用に重点を置き、テキスト分析は、統計的、言語的、および構造的な手法を用いて、非構造化データの一種であるテキストデータから情報を抽出し知識の発見や分類を行う。上記はどれも、データ解析の一種である[8]。
解析(analysis)とは、全体を構成要素に分割し、個々を考察することである[10]。データ解析とは、生データを入手し、それを利用者の意思決定に役立つ情報に変換するプロセスである[1]。データ(data)は、質問に答えたり、仮説を検証したり、理論を反証するために収集され、解析される[11]。
統計学者のジョン・テューキーは、1961年にデータ解析を次のように定義した。
「データを解析する手順、その結果を解釈するための技術、解析をより容易に、正確で、精密にするためのデータ収集の計画方法、およびデータの解析に適用されるすべての機械と(数学的)統計学の結果」[12]。
以下に説明するように、区別することができるいくつかの段階がある。各段階は反復的であり、後の段階からのフィードバックが、前の段階での追加作業につながることがある[13]。データマイニングで使用されるCRISPフレームワークにも同様のステップがある。
データは、解析の入力として必須なものであり、解析プロセスを管理する人(または解析結果を報告する顧客)の要求に基づいて特定される[14][15]。データ収集の対象となる一般的な主体は実験単位と呼ばれる(例:人、または人の集団)。そして、データは母集団に関する特定の変数(例:年齢や所得)を指定して収集される。データは、数値でもカテゴリでもよい(例:番号に紐付くテキスト型ラベル)[13]。
データはさまざまな情報源から収集される[16][17]。その要求事項は、解析者からデータ管理者(たとえば、組織内の情報システム技術者)に伝えられる場合がある[18]。データは、交通監視カメラ、人工衛星、記録装置など、環境内のセンサーから収集されることもある。また、インタビュー、オンライン情報源からのダウンロード、または文書の閲覧を通じて得ることもある[13]。
入手したデータはまず、解析のために加工あるいは整理する必要がある[19][20]。たとえば、さらなる解析をするためにデータを表形式の行と列に配置することがあり(構造化データと呼ばれる)、多くの場合、表計算ソフトウェアや統計ソフトウェアが用いられる[13]。
一度でも処理されて整理を受けたデータは、不完全であったり、重複があったり、誤りを含むことがある[21][22]。データクリーニングの必要性は、データの入力や保存のしかたに問題があることから発生する。データクリーニングは、このようなエラー(誤り)を防ぎ、修正する作業である[21]。一般的な作業としては、レコードの照合、データの不正確さの特定、既存データ全体の品質管理、重複排除、および列の分割が含まれる[23]。このようなデータの問題は、さまざまな解析技術によっても見つけることができる。たとえば、財務情報の場合、特定の変数の合計を、信頼性が高いと考えられる別途公表された数値と比較することができる[24][25]。また、事前に決められた閾値(しきいち)を上回ったり下回ったりする異常値(外れ値)も再調査されることがある。データクリーニングには、電話番号、電子メールアドレス、勤務先など、データ集合内のデータ型に依っていくつかの種類がある[26][27]。異常値検出のための定量的データ手法を用いて、誤入力された可能性が高いと思われるデータを取り除くことができる[28]。テキストデータのスペルチェッカーを用いて入力ミスの量を減らすことができる。ただし、単語そのものが正しいか否かを判断するのは難しい[29]。
データセットをクリーニングすると、次に解析に移ることができる。解析者は、取得したデータに含まれるメッセージを理解し始めるために、探索的データ解析と呼ばれるさまざまな手法を適用することができる[30]。データ探索の過程で、データのクリーニングを追加したり、データへの要求を追加することもある。その結果、本節の冒頭で説明したような反復的な段階が開始される[31]。データの理解を助けるために、平均値や中央値などの記述統計量を作成することもある[32][33]。データ可視化もその一つであり、解析者はデータを図表化し、考察をして、データ内のメッセージについてさらなる洞察を得ることができる[13]。
変数間の関係を特定するために、数式またはモデル(アルゴリズムと呼ばれる)をデータに適用する場合がある。たとえば、相関関係や因果関係を使用する[34][35]。一般論として、モデルは、データセット内に含まれる他の変数に基づいて特定の変数を評価するために開発され、実装されたモデルの精度に応じて多少の残余誤差が生じる(たとえば、データ = モデル + 誤差)[36][11]。
推測統計には、特定の変数間の関係を測定する手法の利用が含まれる[37]。たとえば、広告の変化(独立変数 X)が、売上(従属変数 Y)が変動する説明を与えるかどうかをモデル化するのに、回帰分析を用いることがある[38]。数学の用語では、Y(売上高)はX(広告)の関数である[39]。たとえば、モデルを「Y = aX + b + 誤差」と記述することができ、X の所与の範囲に対して Y を予測するときの誤差を最小化するように a と b が設計される[40]。また、解析者は、解析を単純化し、結果を伝達することを目的に、記述的データ解析のためのモデル構築を試みることもある[11]。
データプロダクト(data product)は、データの入力から出力を生成し、環境にフィードバックするコンピュータ・アプリケーションである[41]。モデルやアルゴリズムに基づいている場合もある。たとえば、顧客の購入履歴データを分析し、その結果を利用して、顧客に有益さをもたらすような別の購入を勧めるアプリケーションがあげられる[42][13]。
データの解析後は、解析結果の利用者からの要求に応えるために、さまざまな書式で報告されることがある[44]。利用者からフィードバックがなされ、その結果、追加の分析が行われることもある。このように、分析サイクルの大部分は反復的である[13]。
解析者は、解析結果を伝えるやり方を決める際、メッセージをより明確かつ効率的に報告先に伝達するために、さまざまなデータ可視化手法の導入を検討することができる[45]。データ可視化は、情報ディスプレイ(表やグラフなどのグラフィクス)を用いて、データに含まれる重要なメッセージを伝達する[46]。表は、特定の数値に着目したり照会できる重要なツールであり、一方、チャート(棒グラフや折れ線グラフなど)は、データに含まれる定量的なメッセージを説明するのに役立つ場合がある[47]。
ステファン・フュー(Stephen Few)は、利用者が一連のデータから理解しようとする、あるいは伝えようとする8種類の定量的メッセージと、そのメッセージの伝達を助けるために使用される関連グラフについて述べた[48]。要求を指定する顧客とデータ解析を行う解析者は、プロセスの推移でこれらのメッセージを検討することができる[49]。
著者のジョナサン・クーメイ(Jonathan Koomey)は、定量データを理解するための一連のベストプラクティスを推奨している[60]。これらは次のとおりである。
解析者は通常、調査対象となる変数について、平均、中央値、標準偏差などの記述統計量を求める[61]。また、個々の値が平均値の周囲にどのように集まっているかを確認するために、主要変数の分布を分析することもある[62]。
マッキンゼー・アンド・カンパニーのコンサルタントは、定量的な問題を構成要素に分解する手法をMECE原則と名付けた。各層は、その構成要素に分解することができる[63]。各々の部分構成要素は互いに排他的であり、合わせるとその上位層にならなければならない[64]。この関係は「相互に排他的な項目による完全な全体集合」またはMECE(Mutually Exclusive and Collectively Exhaustive)と呼ばれる。たとえば、利益の定義は、総収入と総費用に分解することができる[65]。そして総収入は、部門A、B、Cの収入(これらは互いに排他的)によって分析でき、総収入に加算される(余すところなくまとまる)べきである[66]。
解析者は、特定の分析上の問題を解決するために、ロバスト統計量を使用することがある[67]。解析者は、真の状態に関する特定の仮説を立て、その状態が真であるか偽であるかを判断するために、データが収集されて仮説検定が行われる[68][69]。たとえば、「失業はインフレに影響しない」という仮説が考えられる。これはフィリップス曲線と呼ばれる経済学の概念に関連している[70]。仮説検定では、データが仮説を支持するか棄却するかに関する第一種過誤と第二種過誤の可能性を検討する[71][72]。
回帰分析は、独立変数 X が従属変数 Y にどの程度影響するかを解析者が判断するときに使用される。たとえば「失業率の変化 X はインフレ率 Y にどの程度影響するか」[73]。これは、Y が X の関数であるように、データをモデル化または直線や曲線の方程式を適合させようとするものである[74][75]。
必要条件分析(NCA)は、解析者が独立変数 X が変数 Y をどの程度まで許容するかを決定するときに使用することがある。たとえば「特定のインフレ率(Y)に必要な特定の失業率(X)はどの程度か?」[73]。重回帰分析が、各 X 変数が結果を生成し、X が相互に補償できる(それらは十分であるが必要ではない)加法論理を用いるのに対し[76]、必要条件分析(NCA)は、1つまたは複数の X 変数が結果の存在を可能にするが、それを生成しないかもしれない(それらは必要だが十分ではない)必要論理を用いる。それぞれの単一必要条件は存在しなければならず、補償は不可能である[77]。
データ利用者は、上述の一般的なメッセージングとは対照的に、データセット内で特定のデータポイントに関心を抱くことがある。このような利用者による低水準な分析活動を次の表に示す。この分類法はまた、値の取得、データポイントの発見、データポイントの配置という3つの活動の柱によって整理することができる[78][79][80][81]。
# | 作業 | 概要 | 概念的な要約 | 事例 |
---|---|---|---|---|
1 | 値の取り出し | 特定の事例の集合が与えられたとき、それらの事例の属性を見つける。 | データ事例{A, B, C, ...}の属性{X, Y, Z, ...}の値は何か? | - フォードモンデオの1ガロンあたりの走行距離は?
- 映画「風と共に去りぬ」の上映時間は? |
2 | 選別 | 属性値に関する具体的な条件が与えられ、その条件を満たすデータ事例を見つけ出す。 | 条件{A, B, C...}を満たすデータ事例はどれか? | - どのケロッグのシリアルが食物繊維を豊富に含むか?
- どのコメディーが受賞したことがあるか? - どの株式がS&P 500で目標未達であったか? |
3 | 導出値の計算 | データ事例の集合が与えられたとき、それらデータ事例の集計数値表現を計算する。 | 与えられたデータ事例の集合Sに対する集計関数Fの値はなにか? | - ポスト・シリアルの平均カロリーはどのくらいか?
- 全ての店舗の総収入を合計するといくらか? - 自動車メーカーは何社あるか? |
4 | 極値の検索 | ある属性の値が、データセット内の範囲内で極値を持つデータ事例を探す。 | 属性Aに関する上位/下位N個のデータ事例はどれか? |
- 燃費(MPG)が最も優れた車は何か? - 最も多くの賞を受賞した監督・映画はどれか? - マーベル・スタジオで、最も公開日の新しい映画はどれか? |
5 | 並び替え | データ事例の集合が与えられたとき、ある順序尺度に従ってランク付けする。 | データ事例の集合Sを、属性Aの値に基づいて並べ替えるとどのような順序になるか? | - 自動車を重量で並び替えよ。
- シリアル食品をカロリーによってランク付けせよ。 |
6 | 範囲の決定 | データ事例の集合と関心がある属性が指定されたとき、集合内の値の範囲を求める。 | データ事例の集合Sでの属性Aの値の範囲は? | - フィルムの長さの範囲はどれくらいか?
- 車の馬力の範囲はどれくらいか? - このデータセットにはどういった女優が含まれているか? |
7 | 分布の特徴づけ | データ事例の集合と関心のある量的属性が与えられたとき、その属性の集合全体での値の分布を特徴づける。 | データ事例の集合Sにおける属性Aの値はどのように分布しているか? |
- シリアル食品中の炭水化物の分布はどのようであるか? - 買い物客の年齢はどのように分布しているか? |
8 | 異常の発見 | 与えられたデータ事例の集合の中で、特定の関係または期待に関する異常値(統計的外れ値など)を特定する。 | データ事例の集合Sにおいて、どのデータ事例が予期しない/例外的な値であるか? | - 馬力と加速度の関係に例外はあるか?
- タンパク質の含有量について外れ値はあるか? |
9 | クラスター | データ事例の集合の中で、類似した属性値のクラスター(集団)を見つける。 | データ事例の集合Sの中で、属性値{X, Y, Z, ...}が類似しているデータ事例はどれか? |
- 類似の脂肪分/カロリー/糖分を含むシリアル食品のグループはあるか? - 典型的なフィルム長のクラスターはあるか? |
10 | 相関 | データ事例の集合の中で、2つの属性の値の間で有用な関係を決定する。 | 与えられたデータ事例の集合Sにおける属性XとYの相関は? | - 炭水化物と脂肪の間には相関があるか?
- 原産国と燃費(MPG)の間には相関があるか? - 性別によって支払方法の好みは異なるか? - フィルム長が年とともに長くなる傾向はあるか? |
11 | 文脈の理解[81] | データ事例の集合が与えられたとき、利用者に対するデータの文脈上の関連性を見出す。 | データ事例の集合Sの中で、どのデータ事例が現在の利用者の状況と関連しているか? | - 現在のカロリー摂取量に基づいた料理があるレストランのグループはあるか? |
効果的な分析を阻む障壁は、データ解析を行う解析者の間にだけでなく、顧客どうしの間にも存在する可能性がある。事実と意見を区別すること、認知バイアス、および数学的な基礎知識の不足はすべて、健全なデータ解析に対する課題である[82]。
効果的な分析においては、質問に答えたり、結論や正式な意見を裏付けたり、仮説を検証するために、関連する事実を入手する必要がある[83][84]。事実の定義は「反証できないこと」であり、分析に関わるすべての人がその事実に同意できるという意味である[85]。たとえば、2010年8月、米国議会予算局(CBO)は、2001年と2003年のブッシュ減税を2011年-2020年までの期間に延長すると、約3兆3千億ドルの国家債務が追加されると試算した[86]。誰もがCBOの報告を調べることができ、実際そうだと同意するはずである。これは事実である。人がCBOに賛成するか反対するかは、その人自身の意見である[87]。
別の例として、公開会社の監査人は、上場企業の財務諸表が「すべての重要な点において公正に記載されている」かどうか正式な意見を導き出さなければならない[88]。そのためには、事実データや証拠を広範に分析して、意見を裏付ける必要がある。事実から意見へと飛躍するとき、その意見が誤っている可能性は常にある[89]。
分析に悪影響を及ぼしうる認知バイアスにはさまざまなものがある。たとえば、確証バイアスは、自分の先入観を確認する方法で情報を検索したり、解釈したりする傾向である[90]。さらに、自分の見解を支持しない情報を信用しないこともありうる[91]。
解析者は、これらのバイアスを認識し、克服するための特別な訓練を受けることができる[92]。CIAの元アナリストのリチャーズ・ホイヤーは、著書『情報分析の心理学(Psychology of Intelligence Analysis)』の中で、解析者は自らの仮定と推論の連鎖を明確に描写し、結論に関わる不確実性の程度と原因を明記すべきと述べている[93]。彼は、代替案による視点を表面化させ、議論するための手順を強調した[94]。
有能な解析者は、一般的にさまざまな数値技法に精通している。しかし、顧客は数字や数学の基礎に関する能力を持っていない場合があり、そのような人々は数学的非識字[訳語疑問点]と呼ぶ[95]。またデータを伝える人が、意図的に悪い数値的技法を使って、誤解を招いたり間違った伝達を引き起こそうとする場合もある[96]。
たとえば、数値が上昇しているか下降しているかは重要な要素ではないことがある。より重要なことは、経済規模(GDP)に対する政府の歳入や歳出の規模、あるいは企業の財務諸表における収益に対する費用の額など、他の数値との相対的な比較かもしれない[97]。このような数値的技法は、正規化または再スケール化と呼ばれる[25]。インフレ調整(実質データと名目データの比較)や、人口増加や人口動態を考慮するかにかかわらず、解析者が採用するこのような手法は数多く存在する[98]。解析者は、本節の冒頭で説明したさまざま定量的メッセージに対処するために、さまざまな手法を適用している[99]。
また、解析者はさまざまな仮定やシナリオの下でデータを解析することもある。たとえば、解析者が財務諸表分析を行う場合、将来のキャッシュフローを推定するために、さまざまな仮定の下で財務諸表を作り直し、それをある金利に基づいて現在価値に割り戻して、企業や株式の評価を下すことがよくある[100][101]。同様に、CBOは、さまざまな政策オプションが政府の歳入、歳出、赤字に及ぼす影響を分析し、主要な指標について代替的な将来シナリオを作成する[102]。
建物のエネルギー消費量を予測するために、データ解析の手法が用いることができる[103]。スマートビルディングを実現するために、データ解析プロセスのさまざまな段階が実行される。スマートビルディングでは、暖房、換気、空調、照明、セキュリティなどのビル管理および制御業務が、ビル利用者のニーズを模倣してエネルギーや時間のような資源が最適化することで自動的に行われる[104]。
解析(アナリティクス、analytics)とは「意思決定や行動を推進するために、データ、統計的および定量的分析、説明的および予測的モデル、事実に基づくマネジメントを広範に活用すること」である。これはビジネスインテリジェンスのサブセットであり、データを使用してビジネス業績を理解および分析し、意思決定を促進する一連の技術とプロセスである[105] 。
教育活動では、ほとんどの教育関係者が学生のデータを分析する目的でデータシステムにアクセスしている[106]。これらのデータシステムは、教育者によるデータ分析の精度を高めるために、店頭データ形式で教育者にデータを提示する(埋込みラベル、補足文書、ヘルプシステム、主要パッケージ/表示、内容決定)[107]。
この節には、実務家の助けになるようなかなり専門的な説明が含まれているが、ウィキペディアの記事の一般的な範囲を超えている[108]。
初期データ解析と本解析の段階の間で最も重要な違いは、初期データ解析では、本来の調査課題に答えるための分析を控えることである[109]。初期データ解析の段階は、次の4つの質問によって導かれる[110]。
データの品質は、できるだけ早い段階でチェックする必要がある。データの品質は、さまざまな種類の分析を用いて、いくつかの方法で評価することができる。頻度カウント、記述統計(平均、標準偏差、中央値)、正規性(歪度、尖度、頻度ヒストグラム)、普通の代入法(欠測データの補完)を要する[111]。
初期データ解析段階において、データの品質を評価するために用いる解析手法の選択は、本解析段階で実施される解析に依存する[114]。
計測機器の品質は、それが研究の焦点または研究課題ではない場合、初期データ解析段階でのみチェックされるべきである[115][116]。測定器の構造が文献で報告されている構造と一致しているかどうかを確認する必要がある。
測定品質を評価する方法は2つある。
データおよび測定値の品質を評価した後、欠損データの入力、または1つ以上の変数の初期変換を行うかを決定することがあるが、これは本解析段階で行うことも可能である[119]。考えられそうな変数の変換を次にあげる[120]。
たとえば、結果変数と独立変数がグループ内とグループ間で均等に分散しているかどうかなど、無作為化手順が成功したかどうかを確認する必要がある[121]。
無作為化手順を必要としない、あるいは使用しない研究の場合、たとえば、対象の母集団のすべてのサブグループが標本に反映されているかどうかを確認することによって、非無作為抽出の成否を確認する必要がある[122]。
チェックすべきその他の可能性のあるデータの歪みは次のとおりである。
どんな報告書や論文でも、標本の構造を正確に記述する必要がある[124][125]。
特に、本解析段階でサブグループ分析を行う場合は、標本の構造(特にサブグループのサイズ)を正確に決定することが重要である[126]。
データ標本の特性は、以下を確認することによって評価できる。
最終段階では、初期データ解析の結果を文書化し、必要で、望ましく、可能な是正措置を講じる[128]。
また、本データ解析の当初の計画は、より詳細に指定するか書き直すことがあり、そうすべきである[129][130]。
そのためには、本データ解析に関するいくつかの決定を行うことができ、また行うべきである。
初期データ解析段階で、いくつかの解析を行うことができる[132]。
それぞれの変数の測定レベルに対して特別な統計手法が利用できるので、解析においては変数の測定レベルを考慮することが重要である[133]。
非線形システムからデータを記録する場合、しばしば非線形解析が必要となる。非線形システムは、分岐、カオス、高調波、副高調波など、単純な線形手法では解析できない複雑な動的効果を示すことがある。非線形データ解析は、非線形システム同定と密接に関係している[134]。
本解析段階では、研究課題に答えるための分析、および研究報告書の初稿を書くために必要なその他の関連する分析を行う[135]。
本解析段階では、探索的アプローチと確認的アプローチのいずれかを採用することができる。通常は、データを収集する前にアプローチを決定する[136]。探索的分析では、データを分析する前に明確な仮説を立てず、データを適切に説明するモデルを探してデータを検索する[137]。一方、確認的分析では、データに関する明確な仮説が検証される[138]。
探索的データ解析は、慎重に解釈する必要がある。一度に複数のモデルを検定する場合、そのうちの少なくとも1つが有意であることを見いだす可能性が高くなるが、これは第一種過誤によるものである可能性がある[139]。複数のモデルを検定する際には、(たとえばボンフェローニ補正で)常に有意水準を調整することが重要である[140]。また、同じデータセットを用いて探索的分析に続いて確認的分析を行うべきではない[141]。探索的分析は、理論のアイデアを見つけるために用いるが、その理論を検証するためのものではない[141]。あるデータセットで探索的にモデルが見つかったとき、同じデータセットで確認的分析を行うと、確認的分析の結果が、最初の探索的モデルがもたらした第一種過誤と同じ誤りを意味する可能性がある[141]。したがって、その確認的分析は、元の探索的分析よりも有益とはならない[142]。
解析結果がどの程度一般化できるかについて、何らかの指標を持つことは重要である[143]。これを確認するのは難しいことが多いが、結果の安定性を見ることは可能である。結果が信頼できるか?再現性はあるか?、これを確かめるには、主に2つの方法がある[144]。
データ解析のための代表的なフリーソフトを次にあげる。
さまざまな企業や団体がデータ解析コンテストを開催し、研究者がデータを活用したり、データ解析による特定の課題を解決したりすることを奨励している[150][151]。よく知られた国際データ解析コンテストの例に次がある[152]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.