読者です 読者をやめる 読者になる 読者になる

A/Bテストの数理 - 第2回:「何をテストすべきか」意義のある仮説を立てるためのヒント -

統計 読み物 A/Bテスト

 

※ もはやテストの文脈と少しかけ離れた内容になっております,息抜きの読み物としてお楽しみ下さい…

 

スケジュール

  • 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。
  • 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより本質的な問題である(かつ非常に難しい)。意義のある仮説を立てるためのヒントをいくつか考える。
  • 第3回 [数学]:『テストの基本的概念と結果の解釈方法について』:テストの基本的な数学的概念を説明し,またテスト結果をどのように解釈するのかを説明する。
  • 第3回補足 [数学]:『仮説検定の概念を改めて考える』:テストの概念をもう少し丁寧に説明する
  • 第4回 [数学]:『実分野における9個のテストパターンについて』その1その2:オンラインゲーム解析とキャンペーン事例に見る,テストにおける統計量の計算について説明する。
  • 第5回 [数学]:『実際にテストを体感する』:いくつかのテスト事例に対し,サンプルデータを提供し実際に統計量の算出を行ってもらう。新シリーズ:「Treasure Data Analytics」の枠組み内で紹介することになりました。

(※ [読み物] は数学知識を前提としない内容で [数学] は数学知識をある程度前提としたおはなし。)

 

はじめに

テストはその手法よりも,何をテストするかが重要であるが,そのための意義のある仮説を導くのは容易ではない。かと言ってテストを実施するコストを考えれば,適当な仮説を数打てば良い問題でも無い。良い仮説を立てるためには長年の経験や業務知識が必要であると言えるだろう。ただ,ここではそういった固有知識を必要としない汎用的な仮説を導くためのヒントを紹介する。

 

「クリックする」という観点から「選択する」という観点へ

例えば A/B テストの仮説と言えば,「リンクの色を変えたら〜」「画像を差し替えたら〜」「ボタンの文言を変えたら〜」といったものがメジャーである。

これらは皆,ユーザーがあなたのサイトのあらゆる場所を「クリックしている」という認識が根底にあり,これより導かれる仮説は,クリックされる物体に対して「目立ちやすさ」や「わかりやすさ」を改善することの効果に期待するものである。

A/Bテストの生事例 蔵出し14パターン一気紹介 (ポイント解説付き)

上記のサイトとはこのような "クリック指向" な仮説に基づく A/B テストの事例がたくさん載っていて非常に参考になる。(ただ p-値などでなく,CTRの変化だけで効果を述べている点で説得力に欠けると思われるのは,第1回に述べた通り。)

 

あらゆるものを「選択している」という観点で眺める

本ブログでは上記の観点とは異なり,次の様な観点を導入している。ユーザーがあなたのサイトのあらゆる場所・場面で「選択している」と考えるのである。

(例えば,あるWebサイトにアクセスすることや,あるリンクを押すこと,本を選ぶ事などは,「選択可能な集合体からの選択」である。自分のアバターを選ぶこと,アイテムを購入すること,ゲーム内で友達に挨拶することは,「可能な行動対象群の中からの選択」である。)

「選択」の裏には人間の意識が有り,心理がある。人間がどのような心理で「選択」を行うのか,その事がわかれば僕たちは自分たちのサービスを改善していく(または有利に進める)ことができるかもしれない。心理学や行動経済学などは,この人間の選択の心理を追求している学問である。そういった学問から導かれている結果・仮説を持ち込めるこのアプローチはそれなりに意義がありそうだと思う。

以下に挙げる心理学の研究はそれ自身があなたのサービスの改善につながる仮説にマッピングが可能なものとは限らないが,改善のための何かしらのヒントになり,かつ関心のあるものは実施の上テストしてその効果を確認してみてはどうだろう。

 

マジカルナンバー7±2

George Armitage Miller は,人間の短期記憶可能な物体や事実の数は 7±2 個であることを1956年の論文:「マジカルナンバー7±2:われわれの情報処理処理能力の限界」で述べている。人間はこれ以上の数になると知覚判断に影響を与えてしまうらしい。それは位置情報,音,味,物体の色,明るさといったあらゆる事においてである。

また,この研究は情報をブロック化することによって,知覚判断が改善されることも示唆している。確かにクレジットカードの12桁を覚えるのは難しいが,4桁ずつに区切った番号それぞれを記憶しておくことは前者のそれよりは簡単であろう。

このヒントを受けて,例えば「サイトのメニューの数を項目の削減や,カテゴリ細分化によって,1つのブロックを7個前後にすることでサイトのユーザビリティが向上する。」と考えてみることができる。(ただし,ユーザーは必ずしもメニュー項目を記憶する必要は無いので,この心理学的見地から導かれる実際の仮説はもっと練る必要がある。)

また,オンラインゲームの脈略で考えてみる。オンライン上の仲間とパーティを組み,互いに協力しながらダンジョンクリアを目指すようなゲームがあったとする。ゲーム全体のダンジョンクリア数を増やすことが良いことであるなら,

「常にお互いを認識しあえ,親密度の高いパーティを形成するための最適なパーティ人数はいくらが最適か?」に関するテストを7前後の数字を検証してみるのも。

 

「最上部」にあることの優位性

「最上部にある,と言うことが確かに他の位置のものよりも選択されやすいという仮説」の研究結果は多くある。著書「The Art of Choosing 」では,選挙の候補者が投票用紙に最上位に記載されている時とそうでない時の得票数の違いを検証し,平均的なアドバンテージが 2 %であることを述べている。

2000年のアル・ゴアとジョージ・ブッシュの選挙における得票数の差はほんの少しであった。多くの州で投票用紙の掲載準備が軽視されていたこの選挙においては,投票用紙の最上部の多くはブッシュであったことが知られているが,もしブッシュの名前が最上位で無かったとしたら,アメリカの社会は今と少し変わっていたのかもしれない。

 

アンカリング効果

人はあらゆる選択において「初期値」の影響を多大に受けている。

転職面接で前職の給料を聞かれた際に,200万円と答えるのと1000万円で答えるのではおそらく提示される価格は変わってくる可能性は結構ありそうだ。

このように人はアンカー(規準値・初期値)となる数字によって,その後の選択に影響を与えることが知られている。たとえそれが事実でないにせよ,統計的に基づいた意味のあるものでなくても,少なからずそのアンカーに引っ張られた選択を行ってしまう。

例えばあるレストランに対して5段階評価をつけるとする。また,その際に他の人の評価,あるいは全体の平均値が1つ見えているとする。アンカーが星5つの場合と,星1つであった場合では,あなたのつける星の数は変わってしまうかもしれない。

逆に言えば,このアンカーを利用して売り上げの改善が見込める可能性があるかもしれないということだ。

例えばPCを販売するあなたのサイトでは,複数のパーツ(CPU・メモリ・HDD)にグレードがついており,もちろんユーザーには高いグレードの構成にしてもらって購入させたい。もし,初期設定のグレードが全てにおいて最下位のものであったのなら,その初期のグレードを中程度のものに変更してみてはいかがだろう。また個々のパーツでの最適な初期グレードはいくらだろうか。これらを明確にするためのテストが必要だ。

ECサイトを運営するあなたのサイトには検索結果が 10 件,リストとして表示されることになっている。もしこの中でできるだけ高い商品を買ってもらいたいと思うなら,良いアンカーとなりうる商品を一番上に持って来る戦略は有効そうだ。

なぜなら,確かに購入という選択のもとでは単純な「最上位」効果は成立しえないだろうが,一番上の商品を最初に見ることによるアンカリング効果は少なからずあるはずだからである。良いアンカーを見つけるためのテストが必要だ。

 

情報の鮮明さがもたらす説得力

メアリー・ウィルソンは,論文「Information competition and vividness effects in on-line judgmentsInformation competition and vividness effects in on-line judgments」において情報の鮮明さの影響力の有意性を証明した。

陪審員役となった2グループの参加者は,被害者の最終弁論を収録したビデオを見さされる。ただしビデオはグループ間で弁護の鮮明さが異なっている。

グループA:被害者を弁護する議論が10の鮮明な主張とともに収録されたもの

グループB:同じ10の主張があまりぱっとしない論調で弁護しているもの

この実験では前者の説得には後者の2倍が有り,請求した賠償金額も異なるものであった。この研究に基づくならば,サイトのあらゆる場所の説明文をより具体的に魅力的に表現することは,ユーザーへの印象を高める効果があるということなので,テストする価値があるのかもしれない。

( こちらもおすすめ: Beyond the Obvious: Chronic Vividness of Imagery and the Use of Information in Decition Making  )

 

人に選択してもらう事の有効性

選択肢というものは多くの場合,自分が握っていることに安心感を持つ。しかし,時として他人に「選択してもらう」事の方が良い効果をもたらす場合がある。

この状況に遭遇するもっとも身近なケースは自信の「アバターの選択」である。各パーツ20以上もある選択肢の中から自分を的確に表現してくれるパーツを何度も選ぶことに少なからず負担を感じる人はいるだろう。かといって自分の分身を安易に選択できない。

実際,チュートリアルにおいてこのアバター選択における離脱率は他のステップよりも遙かに高い(もちろん選択肢の多さなど他の要因もあるだろうが)ケースが多い。しかしながら彼女や友人といった他人に選んでもらった場合には,自分に良く似たアバターをすんなりと選んでくれ,かつ満足度の高い結果になることもありうる。

「他人に選択してもらう」というシステムを作るのは必ずしも容易ではないが,それは,そのアクションにおける離脱率を有意に下げることができる可能性を含んでいるのかもしれない。