Treasure Data Platform で始めるデータ分析入門〜6. Data Processing Design 〜 Part.1

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue

本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。）

本日は「5. Data Processing Design」を数回に分けて紹介していきます。

さて，とても個人的な意見ですが，データサイエンティストってのは以下の3つの意味で「プロフェッショナル」でないといけないと思っております。

1. 3. についてはご存じかと思われますが，とても重要なのはこの 2. になります。本章ではここにフォーカスを置いていきます。

f:id:doryokujin:20140128163446p:plain

2. はもっと言えば「自分が集計しない」ことを徹底的に追究することです。僕の妄想ですが現状日本においては，多くのデータサイエンティストってのはこの「集計する」という事（レポーティング業務）にリソースが割かれすぎて，その前後の前処理と分析がおろそかになってしまっていると感じています。

同じようで，しかしちょっとずつ項目やセグメントが異なるレポートをうまくパターン化できずに，内容自身は単純な作業なのにほぼ人力で行われているケースって結構あると思うのですよね。

本章のゴールはこの「集計」をうまくデザイン（パターン化）し，それこそ学生アルバイトでもこのプロセスを遂行できるようにすることです。そうすることでデータサイエンティストは本来の仕事に専念でき，かつ一定のクオリティの定時レポーティングがアルバイトリソースで量産できることになります。

# ここではまだまだ思慮の余地がありますが，これでうまくいくのでは，と考えている手法を紹介します。数ヶ月後，精錬されたものを改めて紹介するかもしれません。

f:id:doryokujin:20140128164444p:plain

今回紹介するのは「Cubic Data Processing Design」という，

Source Tables → Big Cube → Mini Cubes → Cross Tables → Visualize

という形でデータを情報を凝縮させていく方法です。それぞれのプロセスについて「専門家」or「アルバイト」のどちらが遂行すべきかを明確にし，リクルート様の提供して下さった「Car Sensor」データを使って具体的に紹介していきます。

皆さんにも手を動かしてもらえるように，Car Sensor データのダウンロード，インポート作業は，「実データで覚える Treasure Client コマンドラインリファンス」シリーズで紹介しております。

f:id:doryokujin:20140128165631p:plain

今回ももちろん Treasure Data プラットフォームを利用していきます。Source Table から Mini Cubes まではそれらを全部 Treasure Cloud Storage 上に作って行きます。

次回は専門アナリストによる Big Cube の作成と前処理のプロセスを実データで見ていきます。お楽しみに。