Treasure Data Platform で始めるデータ分析入門 〜4. Data Management〜

本シリーズではデータ分析を以下の7つのレイヤーに分解し,各々について解説していくものとします。(Slide Shareの資料は常時更新されます。)

  1. Data Collection
  2. Data Storage
  3. Data Management
  4. Data Processing
  5. Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6
  6. Data Visualization Treasure Viewer, MetricInsights, Tableau
  7. Data Visualization Patterns Part.1 Part.2 Part.3

本日は「3. Data Management」にフォーカスを当てます。とてもライトな内容です。

f:id:doryokujin:20140115150932p:plain

f:id:doryokujin:20140115150950p:plain

Treasure Data Cloud 上のデータの把握および管理は,実は最近までコマンドラインベースのツールしかありませんでした。ドキュメントを参考にしながらデータベース・テーブルの作成・参照やクエリの実行などを行うことは,日々黒画面に向き合っているエンジニア勢ならまだしも,純粋な分析者やマネージャーがそれを使うには多少なりともの障壁がありました。

f:id:doryokujin:20140115151943p:plain

そこで Treasure Data では Web UI 上でデータの管理やクエリの実行が行える Treasure Management Console をデフォルトで提供することにしました。それではManagement Console の機能を見ていきましょう。

 

f:id:doryokujin:20140115151013p:plain

今までに作成されたデータベースの一覧です。データベース名のリンクをクリックすることでテーブル一覧に移動します。また,右上の「Create」ボタンによって新しくデータベースを作成することも可能です。

 

f:id:doryokujin:20140115151029p:plain

特定のデータベース下に作成されたテーブル一覧です。テーブル名のリンクをクリックすることでテーブル内のレコードサンプルページに移動します。また,右上の「Create」ボタンにテーブルの作成が可能です。(同じく削除も。)

 

f:id:doryokujin:20140115151105p:plain

特定のテーブル下に格納されているレコードのサンプル一覧です。ここでレコードを眺めることはとても重要で,どのような項目を持っているか,値は正確な形で入っているか,などを確認します。データ分析を始める事は「データを眺める」事と同意です。また,ここからスキーマ変更などの設定を行う事ができます。

 

f:id:doryokujin:20140115151137p:plain

実際に抽出・集計を行うためのクエリを作成したら,多くの場合それは特定のインターバル(Monthly, Daily, Hourly,...)でバッチとしてスケジューリングされます。そのスケジューリングをこのページから行えます。記述方法はCRONに準じており,また過去のスケジューリングによって実行されたジョブのステータス(Success or Fail)を確認することができます。

 

f:id:doryokujin:20140115151121p:plain

 

現在実行されているジョブおよび過去のジョブは Jobs より確認することができます。各ジョブについてどのデータベース・テーブルに対するどのようなクエリであるか,またステータス(Running, Finished, Failed, Slow)別に見る事もできます。何かあったときの問題解決に役立つ情報を提供してくれます。

 

f:id:doryokujin:20140115151154p:plain

今どのくらいのレコード数・データ量であるかは Utilization から参照できます。また,計算コアの稼働状況を時系列グラフで確認することができます。このグラフが常時上限を張っているような場合は明らかな計算コア不足でjobが詰まっている状況ですのでプランの変更がマストになってきます。

この Utilization から多くの人が得られるであろう気づきは,多くの人が想定している以上に(圧縮された)データ量は遙かに小さいと言うことです。

現在「ビッグデータ」は数十TB以上のデータと定義されていますが,それがどれくらい壮大なモノであるかをあらためて実感し,何より多くの場合どれだけ頑張って蓄積しても身構えるような量ではなく,大規模な環境構築なんて必要無いということを身をもってしるのはとてもとても重要です。

自分たちのデータ規模を知らずしてセールスの言われるがまま,いきなりオンプレミスの大きな箱を買うなんていうのは非常にもったいない話です。それらを検討する前に,まずは圧倒的なスピードかつスモールスタートできる Treasure Data Platform に登録することから始めてみませんか?

 

さて,次回より本質的な話に入っていきます。4. Data Processing にご期待下さい。