Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.3

本シリーズではデータ分析を以下の7つのレイヤーに分解し,各々について解説していくものとします。(Slide Shareの資料は常時更新されます。)

  1. Data Collection
  2. Data Storage
  3. Data Management
  4. Data Processing
  5. Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6
  6. Data Visualization Treasure Viewer, MetricInsights, Tableau
  7. Data Visualization Patterns Part.1 Part.2 Part.3

本日は「7. Data Visulization Patterns」の全 3 回続く第 3 回目の紹介です。

 

2. Table Visualization(続き)

B. Table Segmented by 2 Columns

平面的なテーブル表現は 2 種類のセグメントの使用まで可能です。今回は 2 種類のセグメントによって集計されたテーブルの表現を考えます。 

カテゴリ\年代 15 20 25 30 35 40 45 50 55 60 65
Category A 100 120 87 89 79 123 86 56 67 89 102
Category B 90 110 72 79 60 100 76 47 40 78 40
Category C 48 79 120 139 90 99 89 90 37 60 77
Category D 67 78 102 90 77 68 90 77 56 70 120
Category E 90 79 67 100 98 56 80 67 87 110 150
category F 100 127 123 103 136 128 73 71 82 67 40
図1:2種類のセグメントによって集計されたクロステーブルの例。集計(SUM, AVG)のどれか 1 つの値のみ,テーブルのセルの値として表現可能です。 

A. の 1 種類のセグメントのテーブル場合と違って次元が 1 つ増える,つまり今までの X, Y 軸に加えて何らかの手法で新しく Z 軸 を加えなければなりません。

今回の体系化のポイントは Line, Bar, Pie といった区別では無く,新たな次元軸をどのように表現するかにあります。

  • Chart の重ね合わせ + Legend(凡例)による表現(図2)
  • 奥行きによる表現(図3)
  • Panel を並べることによる表現(図4)
  • X 軸に並べることによる表現(図5,図7)
  • 値を積み上げる(Stack)による表現(図6,図7)
  • Heat Map: 色味による表現(図8,図9)
  • Bubble Chart: 円の半径の大きさによる表現(図10)

f:id:doryokujin:20120629004055p:plain

図2:複数の Line を重ね合わせ,凡例によって区別を説明した Line Chart によるシンプル表現。この場合は要素数が少ないセグメントを Line とする方が見やすいグラフになるが,要素数が多くなれば重なり部分が増えて見にくくなってしまいます。

f:id:doryokujin:20120716042707p:plain

図3:図2 と同じインプットに対して,奥行きを持たせて表現した Area Chart。Area Chart とは Line Chart において値の下側を色づけした Chart です。立体的に表示する場合には Line Chart よりも Area Chart の方が表現領域が増えて各々のグラフの区別がしやすくなります。立体的な表現をする場合は角度を自由に変えられるようなインタラクティブな環境であるほうがより有効です。

f:id:doryokujin:20120716042509p:plain

図4:複数の Bar Chart のパネルを,X 軸のレンジを統一して立てに並べた Bar Chart は全体的にすっきりしており,かつ比較もしやすいのでおすすめです。

f:id:doryokujin:20120716042530p:plain

図5:同じ X 軸の値ごとにぴったり並べた Bar Chart。こちらは 図4 に比べて,同じ変数値間での比較には優れていますが,別の変数による比較は劣っています。

f:id:doryokujin:20120716042547p:plain

図6:積み上げ(stack)による Bar Chart 表現。左は集計値の絶対量で表現しているのに対し,右は X 軸のカテゴリ変数値(A,B,...,F)の総和に対する各カテゴリ変数の割合を使用した Bar Chart 表現。この場合は X 軸の各値毎に積み上げ総計が 1 または 100(%表現の場合) となります。

f:id:doryokujin:20120716042633p:plain 

図7:図5 と 図6 の Bar Chart を Area Chartにて表現したもの(インプットは異なります)。Area Chart の場合は X 軸となるセグメントの要素数が多い場合に Bar Chart より見やすい表現を与えます。下の Area Chart は割合による積み上げ表現(図6右の表現と同じ)になります。

f:id:doryokujin:20120716042748p:plain

図8:X, Y 軸の格子状の各セルの中に,新しい Z 軸として「色味」で表現した Heat Mapによる表現。

f:id:doryokujin:20120716042810p:plain

図9:図 8 の Heat Map はさらに「位置情報」という次元が増えた場合には格子状のセルではなく地図上の各領域内の色味によって値を表現します。

f:id:doryokujin:20120716042953p:plain

図10:Bubble Chart はまず新しい軸をバブルの半径として表現します。加えてもう1つ新しい軸を今度は色味によって表現することができます。このように多数の次元を表現しつつも見やすさを損ねない Bubble Chart はなかなか有効な表現です。

 

終わりに

今回はデータ解析における各ステップ,

  1. サンプルデータセット
  2. 集計済テーブル(1 or 2 種類のセグメントによる)

を区別して Visualization の例を紹介しました。第1回で紹介したサンプルデータセットでは Visualization の背後には統計(とりわけ分布)という概念が常に潜んでいることを学びました。

また,第2回の 1 種類のセグメントによる集計テーブルの Viaualization では使用・着目するセグメント(変数)の種類が,

  1. 数値変数:(さらに「1.1 連続型」と「1.2 離散型」に分類)
  2. カテゴリ変数:(さらに「2.1 順序付」と「2.2 順序無」に分類)

のいずれかにあることで適切な表現が異なる事を学びました。

さらに今回の 2 種類のセグメントによるテーブルの表現においては,新たな次元軸をどのように表現するか,例えば

  1. 重ね合わせ + 凡例による表現
  2. 奥行きによる表現
  3. Panel を並べるによる表現
  4. X 軸に並べるによる表現
  5. 値を積み上げるによる表現
  6. 色味によるによる表現
  7. 円の半径の大きさによるによる表現

のようなパターンがある事を紹介しました。

これらのパターン化はあくまで多くの方法の中の 1 つに過ぎませんが,Visualization を行う時にはこれらのパターンを意識してもらえるようになると幸いです。