データ可視化
ウィキペディアから
ウィキペディアから
データ可視化 (データかしか 英:Data visualization)とは、データのグラフィック表現を扱う学際分野であり、データ視覚化や外来語でデータビジュアライゼーションとも呼ばれる。これは特にデータが膨大な場合(例えば時系列など)に効率的な伝達手段である。
この項目「データ可視化」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:en:Data visualization14:52, 1 November 2021) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2021年11月) |
学術的な観点からは、この表現は元データ(通常は数値)とグラフィック要素(例えばグラフにある線や点)の間にあるマッピング[注釈 1]だと考えることができる。マッピングによって、グラフィック要素がデータに応じてどの程度変化するのかが決まる。例えば棒グラフは、元データの変数値を棒の長さにマッピングしたものである。図表のグラフィックデザインはグラフの読解に悪影響を及ぼしかねないため[2]、マッピングがデータ可視化の核心部分である。
データ可視化は統計学分野に根ざすもので、一般的には記述統計部門と見なされている。ただし、効果的な可視化にはデザイン能力と統計処理能力の両方が求められるため、それが美術と科学の両方にあたるものだと主張する著者もいる[3][4]。
人々が様々な種類の可視化をいかに読解したり誤読するのかに関する研究は、可視化のどんな種類及び特性が情報を伝えるのに最も理解しやすく効果的であるかを判断する手助けとなっている[5][6]。
情報を明確かつ効率的に伝達するため、データ可視化では統計グラフ、プロット図、インフォグラフィック、その他の手法を用いる。数値データは点や線や棒などを用いて符号化され、その情報を視覚的に伝える[7]。効果的な可視化はデータを解析したり証拠を論理考察するのに便利で、複雑なデータをより見やすく理解しやすく活用しやすくしてくれる。可視化に際しては比較を出したり因果関係を理解するなど特定の解析手法を行なっている場合があり、グラフィックの設計原則はその手法に従う(すなわち、比較や因果関係を示す)ものとなる。テーブル(表)は一般に特定の測定値を利用者が検索する場合に使用され、一方で様々な種類のグラフは一つ以上の変数データに対するパターンや関係性を示すのに使用される。
データ可視化とは、数値データや情報をグラフィック内にある描画対象物(点や線や棒など)に符号化することで、それを情報伝達するのに用いられる技法を指す。その目的は、利用者に情報を明確かつ効率的に伝達することにある。それはデータ解析やデータサイエンスにおける段階の1つである。フリードマン(2008)によると「データ可視化の主な目的とは、グラフィカルな手法を通じて情報を明確かつ効果的に伝えることにある。それはデータ可視化が機能的になるよう質素に見える必要性とか極端に洗練された外観に見える必要性があるという意味ではない。見識を効果的に伝えるには、審美的な形状と機能性の双方が手を取り合う必要があり、より直感的な方法でその重要な側面を伝達することによって、まばらで複雑なデータ群への知見を提示することになる。未だに設計者側が形状と機能のバランスをとれないことも多く、情報伝達という主目的を果たさない派手なデータ可視化をしばしば作っている」という[8]。
実際、理想的な可視化とは明確に伝えるのみならず視聴者の関与や注意を刺激するべきものだと示唆する有識者もいる[9]。
データ可視化は、インフォグラフィック、情報の可視化、科学の可視化、探索的データ解析、統計グラフと密接に関連している。2000年以降、データ可視化は研究、教育、開発の活発な領域となっており、ポスト達(2002)によれば科学と情報の可視化は結びついているという[10]。
商業環境におけるデータ可視化は、しばしば経営ダッシュボードと呼ばれる。インフォグラフィックがデータ可視化の非常に一般的なもう一つの形式である。
Edward Tufteは、情報表示を扱う者は比較など特定の解析法を実行していると説明した。インフォグラフィックの設計原則はこの解析法に基づくべきである[12]。クリーブランドとマギルが示すように、異なるグラフィック要素がこれを多かれ少なかれ効果的に成し遂げている。例えば、点プロット図や棒グラフは円グラフよりも有用性が高い[13][注釈 2]。
タフテは1983年の著書『The Visual Display of Quantitative Information(定量情報の可視表示)』にて「グラフィック表示」とその効率に関する原則を次のように定義している。「統計グラフの優れている点は、明確性・正確性・効率性を共に伝達するという複雑な思想で成り立っていることである。グラフィック表示は以下のようにすべきである。
グラフィックはデータを明快にする。実際、グラフィックは従来の統計コンピュータ処理よりも正確にかつ明示させることが可能である。」[14]
例えば、ミナールのダイアグラム図(右上を参照)は1812-1813年にナポレオン軍が負った損失被害を示している。描かれた6つの変数は、軍の規模、2次元平面上の位置(xとy)、時間、移動方向、温度である。線の幅は比較(各地点での軍の規模)を示し、温度軸は軍の規模変化の原因を示唆している。2次元平面におけるこの多変数表示は、直ちに把握できるように物語を伝えながら、一方で信頼性を構築するソース情報も明らかにしている。タフテは「これまでに描かれた最高の統計グラフィックかもしれない」と1983年に記した[14]。
これらの原則を適用しないと、メッセージを歪めたり誤った結論を支持してしまう誤解を与える統計グラフになる可能性がある。タフテによると、屑グラフ (chartjunk) とはメッセージを強調しない無関係の装飾グラフィックがあったり不必要な3次元表示(奥行表示など)があるものを指す。要点説明を画像自体から不必要に離したり、画像から要点へと視線を何度も往復させる必要があるものは「管理破綻」の一形態である。「インクに対するデータ(data to ink)」の比率を最大化し、可能であればデータ以外の印刷部分は削除すべきである[14]。
米議会予算局は、2014年6月にグラフィック表示の最も良い実践法を幾つか要約して公表した。具体的にはa) 自分の視聴者を知る事。b) 報告書の文脈外側に、グラフィックが単独で収まるよう設計する事。c) 報告書の要点となるメッセージを伝えるグラフィックを設計する事。などが挙げられている[15]。
著述家のステファン・ヒュー は、利用者が一連のデータや関連グラフから理解または伝達を試みたり、メッセージ伝達の手助けとなるかもしれない8種類の量的メッセージ(quantitative message)について説明した。
一連のデータを評価する解析担当者は、上述のメッセージ達やグラフ類型の一部または全部が自分の解析手法および閲覧者側に適切なものであるか否かを考慮した方が良い。データにおける有意な関係性やメッセージを特定させる試行錯誤の工程は、探索的データ解析の一部である。
人間は、多くの処理労力をしなくとも線分の長さ、形状、方向、距離、色(色相)の違いを容易に区別できる。これらは「前注意過程 (Pre-attentive processing) 」と呼ばれる。例えば、数字の"5" が一連の数値に出現する回数を識別するには、相当な時間と労力(注意過程)を要する場合もある。ただし、仮に"5"という字体の大きさ、向き、色などが異なっていたら、前注意過程を通してその数字の存在が即座に捉えられる[17]。
説得力あるグラフィックは前注意過程および帰属性で優位に立っており、これら帰属性の強さは相対的である。例えば、人間は表面積よりも線分の長さのほうが違いを容易に処理できるため、円グラフ(比較を示すのに表面積を用いる)よりも棒グラフ(比較を示すのに優位な線分の長さを用いる)を使う方が効果的である[17][注釈 2]。
ほぼ全てのデータ可視化は人間の消費目的で作成される。直感的な可視化をデザインする際には、人間の知覚や認知についての知識が必要となる[18]。認知とは人間における、知覚、注意、学習、記憶、思考、概念形成、読解、問題解決などの様なプロセスを言う[19]。人間の視覚処理は、変化を見分けたり量、大きさ、形状、明度の変化を比較するのに効率的である。記号的なデータ属性が可視属性へとマッピングされると、人間は大量のデータを効率的に閲覧することが可能になる。脳のニューロンの2/3が視覚処理に関与しうると推測されている[要出典]。適切な可視化は、可視化されていない量的データでは不明瞭だった潜在的関係性などを示す別の見方を提供することになる。可視化はデータ探索の手段となりうるものである。
視覚は使用する認知リソースが平均19%少なく、データ可視化を文章と比較する場合に4.5%詳細を思い出すことができる事が研究で示されている[20]。
データ可視化の歴史は包括的ではない。視覚的思考とデータ可視化表現の発展全体に及んでいる著述はなく、これは様々な分野の功績を寄せ集めたものである[21]。ヨーク大学が、可視化の包括的な歴史を提示しようとするプロジェクトに取り組んでいる。一般的な認識とは対照的に、データ可視化は近現代における発展ではない。先史より、恒星のデータや星の位置といった情報は更新世時代より洞窟壁画(南フランスのラスコー洞窟で見つかったもの等)で可視化されていた[22]。メソポタミアのクレイ・トークン(紀元前5500年)、インカのキープ(紀元前2600年)、マーシャル諸島のスティックチャート(時代不詳)などの物理的な人工物も定量情報の可視化と考えることができる[23][24]。
最初に文書化されたデータ可視化は紀元前1160年のTurin Papyrus Mapまで遡ることが可能で、これは地質資源の分布を正確に図示してそれら資源の採掘に関する情報を提供したものである[25]。こうした地図は主題図に分類されるもので、これは固有の地理領域に関連する特定テーマを示すべく設計されたデータ可視化の一種である。最初期に文書化されたデータ可視化の形態は、異なる文化、表意文字、象形文字からなる様々な主題図で、図示された情報の解釈を提供しうるものだった。例えばミケーネの線文字B粘土板は、地中海域における青銅器時代後期の交易に関する情報の可視化を提示するものだった。座標という発想は古代エジプトの測量者によって町を区画する際に用いられ、地上と天空の位置どりは少なくとも紀元前200年までに緯度や経度と似たものによって定められ、アレクサンドリアのクラウディオス・プトレマイオス(西暦85-165年頃)による地球地図への緯度と経度の投影は、参照基準として14世紀までに採用された[25]。
紙と羊皮紙の発明は、歴史を通じて可視化のさらなる発展を可能にした。右の図は、修道院学校の教科書付録で使われていた惑星運動を図示する意図の10世紀または11世紀のグラフである[26]。このグラフでは、時間の役割として惑星軌道の傾斜角のプロット図を示す意図が明らかである。
16世紀までに、物理的な量、地理的位置、天体位置を正確に観測したり測定するための技術や計器が非常に発展した。特に重要なのは、地図上の位置を正確に決定する三角測量法などの発展だった[21]。ごく初期には、時間の測定が学者達にデータを可視化する革新的な方法を発展させた[27]。
フランスの哲学者ルネ・デカルトと数学者ピエール・ド・フェルマーが解析幾何学と直交座標系を発展させ、これが値の表示および計算の実践的手法に大きな影響を与えた。統計と確率理論におけるフェルマーとブレーズ・パスカルの研究が、現在私達がデータとして概念化しているもの基礎を築いた[21]。インタラクションデザイン財団によると、これらの発展が量的データのグラフィカルな伝達法の可能性を見いだしたウィリアム・プレイフェアに統計のグラフ化手法を生み出させ、発展を遂げる一助となった[18]。
20世紀後半、ジャック・ベルタンが情報を「直感、明瞭、正確、効率的に」表すのに定量グラフを使用した[18]。ジョン・ターキーとエドワード・タフテがデータ可視化の限界を押し上げた。ターキーによる調査データ解析での新たな統計アプローチや、タフテによる著書『The Visual Display of Quantitative Information(定量情報の可視表示)』が、統計学を超えたデータ可視化技法を洗練させる道を開いた。科学技術の進歩に伴い、データ可視化は進歩していった。手描きでの可視化から始まって、より技術的なアプリケーション(ソフトウェア主導のインタラクティブな可視化など)へと進化を続けている[28]。
SAS、R言語、Minitabなどのプログラムが統計分野でのデータ可視化を可能にしている。 他のデータ可視化アプリケーション(D3、Python、JavaScriptなど焦点をさらに絞った固有プログラミング言語)は量的データの可視化を行うのに便利である。 このほか、学習データの可視化および関連プログラムライブラリの需要を満たす講座を開いている私立学校もある[29]。
2013年のシンポジウム"Data to Discovery"を皮切りに、パサデナのアートセンター・カレッジ・オブ・デザイン、カリフォルニア工科大学、ジェット推進研究所が、インタラクティブなデータ可視化に関する単年講座を実施している[30]。同講座では「インタラクティブなデータ可視化は科学者やエンジニアがデータをより効果的に探索するのにどう役立つのか? コンピュータ処理、デザイン、設計思考は研究結果を最大化するのにどう役立つのか? これら分野から得た知識を活用するために最も効果的な方法論は何なのか?」などを模索している。適切な可視かつ双方向の特性を備えた関連情報に符号化することによって、調査を支援したり最終的にはデータへの新しい知見を得ることで、この講座では設計思考に最新の(コンピュータ処理、ユーザー中心設計、インタラクションデザイン、3D画像などに由来する)手法を組み合わせて、複雑な科学問題に対する新たな学際的アプローチを生み出している。
データ可視化には固有の専門用語があり、その一部は統計学から派生したものである。例えば、ステファン・ヒュー は次の二種類のデータを定義しており、それは有意な分析や視覚化を支援するために組み合わせて使用される。
この二種類には異なる可視化の手法が必要なため、カテゴリ変数と量的変数の区別は重要である。
H25年度 | 4月 | 5月 | 6月 | |
---|---|---|---|---|
東京 | 5485 | 6012 | 5296 | |
名古屋 | 4463 | 4735 | 4769 | |
大阪 | 4987 | 5567 | 5081 |
棒グラフ |
|
可変幅棒グラフ |
|
ヒストグラム |
|
散布図 | |
散布図(3D) |
|
ネットワーク図 | |
円グラフ | |
折れ線グラフ |
|
ストリームグラフ |
|
ツリーマップ[注釈 5] |
|
ガントチャート |
|
ヒートマップ |
|
ストライプグラフ |
|
スパイラルグラフ | |
箱ひげ図 | |
フローチャート |
|
レーダーチャート | |
ベン図 |
|
相関図 |
|
インタラクティブ(双方向)なデータ可視化は、グラフ表示のプロット図上で直接作業することが可能で、データ要素を変更したり複数のプロット図を連携できるものを言う[37]。
インタラクティブなデータ可視化は1960年代後半から統計学者の研究対象となっている。制作例はアメリカ統計学会の映像貸出図書館で見つけられる[38]。
一般的な双方向性には以下のものがある。
データ可視化の分野には様々なアプローチがある。一般的な焦点の1つが情報提示である。フレンドリー(2008)は、データ可視化の二つの根幹を統計図表と主題図だと考えている[39]。"Data Visualization: Modern Approaches"(2007)という論文ではデータ可視化の主題7つの概要が以下のように示されている[40]。
これらの主題は全てグラフィックデザインおよび情報表現と密接に関連している。
他方、コンピュータ科学の観点からフリッツ・H・ポストは2002年にこの分野を次の下位分野に分類した[10][41]。
ハーバード・ビジネス・レビューにて、スコット・ベリナートはデータ可視化にアプローチする枠組みを構築した[43]。可視化を考えるにあたって、活用者は1)あなたが持っているもの、2)あなたがしていること、という2つの議題を検討する必要がある。第1段階は可視化したいと思うデータを特定すること。それは過去10年間にわたる利益のようなデータドリブンあるいはどのように特定組織が構築されたかみたいな概念的考察である。この問いに答えが出ると、次に情報を伝達しようとしているのか(宣言的可視化)あるいは何かを表現しようとしているのか(探索的可視化) に焦点を絞ることができる。スコット・ベリナートはこれら議題を組み合わせて、それぞれ独自の目標を持つ視覚伝達を4種類挙げている。
以下が視覚伝達の4種類である[43]。
データ提示体制の構築(Data presentation architecture,DPA)とは、意味と適切な知識を最適に情報伝達するような方法でデータを識別して、配置し、手を加え、書式を整えて提示することを模索する一連の技能である。
歴史的に、この用語はケリー・ラウトによるものとされる[注釈 7]。DPAはビジネスインテリジェンスの成功と価値にとって重要とされる一連の応用技能である。DPAは、データから価値ある情報を発見したり、それをデータ可視化や通信伝達などの技術で使い甲斐のある関連性・実用性の高いものになるよう科学的な数値、データ、統計を結び付けている。その目的はデータ範囲、配信タイミング、定型フォーマット、可視化を用いてビジネスインテリジェンスの解決策を提供することにあり、これが理解されたビジネス目標に向けて運用戦略上の行動を最も効果的に支援かつ推進することになる。DPA はIT技能やビジネス技能ではなく、別の専門分野として存在する。しばしばデータ可視化と混同されるが、DPAは取捨選択を済ませたデータを提示する最善の方法だけでなく、どういった予定でどのデータをどの書式で正確に提示するかを決定することまで含んだ、はるかに広範な一連の技能である。データ可視化の技能はDPAの要素の一つである。
DPAには主に2つの目的がある。
上述の目的を念頭に、実際のDPA作業は以下の事からなる。
DPA作業は以下に挙げる分野と共通点がある。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.