Treasure Data Platform で始めるデータ分析入門〜4. Data Management〜

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue

本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。）

Data Collection
Data Storage
Data Management
Data Processing
Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6
Data Visualization Treasure Viewer, MetricInsights, Tableau
Data Visualization Patterns Part.1 Part.2 Part.3

本日は「3. Data Management」にフォーカスを当てます。とてもライトな内容です。

f:id:doryokujin:20140115150932p:plain

f:id:doryokujin:20140115150950p:plain

Treasure Data Cloud 上のデータの把握および管理は，実は最近までコマンドラインベースのツールしかありませんでした。ドキュメントを参考にしながらデータベース・テーブルの作成・参照やクエリの実行などを行うことは，日々黒画面に向き合っているエンジニア勢ならまだしも，純粋な分析者やマネージャーがそれを使うには多少なりともの障壁がありました。

f:id:doryokujin:20140115151943p:plain

そこで Treasure Data では Web UI 上でデータの管理やクエリの実行が行える Treasure Management Console をデフォルトで提供することにしました。それではManagement Console の機能を見ていきましょう。

f:id:doryokujin:20140115151013p:plain

今までに作成されたデータベースの一覧です。データベース名のリンクをクリックすることでテーブル一覧に移動します。また，右上の「Create」ボタンによって新しくデータベースを作成することも可能です。

f:id:doryokujin:20140115151029p:plain

特定のデータベース下に作成されたテーブル一覧です。テーブル名のリンクをクリックすることでテーブル内のレコードサンプルページに移動します。また，右上の「Create」ボタンにテーブルの作成が可能です。（同じく削除も。）

f:id:doryokujin:20140115151105p:plain

特定のテーブル下に格納されているレコードのサンプル一覧です。ここでレコードを眺めることはとても重要で，どのような項目を持っているか，値は正確な形で入っているか，などを確認します。データ分析を始める事は「データを眺める」事と同意です。また，ここからスキーマ変更などの設定を行う事ができます。

f:id:doryokujin:20140115151137p:plain

実際に抽出・集計を行うためのクエリを作成したら，多くの場合それは特定のインターバル（Monthly, Daily, Hourly,...）でバッチとしてスケジューリングされます。そのスケジューリングをこのページから行えます。記述方法はCRONに準じており，また過去のスケジューリングによって実行されたジョブのステータス（Success or Fail）を確認することができます。

f:id:doryokujin:20140115151121p:plain

現在実行されているジョブおよび過去のジョブは Jobs より確認することができます。各ジョブについてどのデータベース・テーブルに対するどのようなクエリであるか，またステータス（Running, Finished, Failed, Slow）別に見る事もできます。何かあったときの問題解決に役立つ情報を提供してくれます。

f:id:doryokujin:20140115151154p:plain