Treasure Data Platform で始めるデータ分析入門〜8. Data Visualization Patterns 〜 Part.2

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue

本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。）

Data Collection
Data Storage
Data Management
Data Processing
Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6
Data Visualization Treasure Viewer, MetricInsights, Tableau
Data Visualization Patterns Part.1 Part.2 Part.3

本日は「7. Data Visulizations」の全 3 回続く第 2 回目の紹介です。

前回からの続きです。

2. Table Visualization

Table Visualization とは，サンプルデータセットを集計したテーブルに対して行う Visualization を指します。集計とはデータセットのある変数に対していくつかのセグメントごとに SUM, COUNT などの集計関数を適用することによって次元を 1 つ縮約（行列はベクトルへ，ベクトルは数値へ縮約）することで，各種ツールでいう

Group By [SQL]
Pivot Table [Excel]
Split-Apply-Combine [R]

といった手続きに該当します。以下の様に具体的に見ていった方が簡単です。

A. Table Segmented by Single Column

まずは 1 種類のセグメントにより集計（SUM, AVG, COUNT などして得られたシンプルなテーブルを紹介します。

ところで，このセグメントを変数とみなすことにすれば，前回で述べたように

数値変数：（さらに「1.1 連続型」と「1.2 離散型」に分類）
カテゴリ変数：（さらに「2.1 順序付」と「2.2 順序無」に分類）

に分類することができます。セグメントが上記のどの分類に該当するかによってどの Chart を使用するかが異なってきます。またセグメントのキーの値が X 軸として扱われることになります。

※ 以後は変数とセグメントを同じ意味で扱います。

年代	15	20	25	30	35	40	45	50	55	60	65
Sum	100	120	87	89	79	123	86	56	67	89	102

図1：年代毎に合計を計算した 1 × n テーブル（n はセグメントの要素数）。この場合の変数のタイプはカテゴリ変数（順序付）。このテーブルは例えばSQLならば `GROUP BY generation` を含んだ集計クエリによって得られたテーブルを転置することで得られます。

年代	15	20	25	30	35	40	45	50	55	60	65
Sum	100	120	87	89	79	123	86	56	67	89	102
Count	10	4	3	10	5	3	4	10	8	8	10
Average	10.0	30.0	29.9	8.9	15.8	41.0	21.5	5.6	8.3	11.1	10.2

図2：年代ごとに各種集計値を計算した 3 × n テーブル。セグメントの種類が 1 つという意味ではこれも図1 と同じテーブル分類に入ります。Chart として表現する場合は基本的に 1 つか 2 つの行を選択します。2 つの行を選択した場合はこれらは単位が異なりますので左 Y 軸と右 Y 軸を使用することになります。

A-1. Line Chart（使用ケース：数値変数）

変数が時間や数値を区分けしたものである場合，隣接する変数の間にもデータの存在を仮定しますので変数間を直線および曲線によって「補間」する必要があります。このようにしてプロット点が線して表現された Chart を Line Chart と呼びます。連続か離散，または補間の方法によって以下の 3 パターンを取り上げています。