A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて -

データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,本シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。

 

スケジュール

  • スケジュール

    • 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。
    • 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより本質的な問題である(かつ非常に難しい)。意義のある仮説を立てるためのヒントをいくつか考える。
    • 第3回 [数学]:『テストの基本的概念と結果の解釈方法について』:テストの基本的な数学的概念を説明し,またテスト結果をどのように解釈するのかを説明する。
    • 第3回補足 [数学]:『仮説検定の概念を改めて考える』:テストの概念をもう少し丁寧に説明する
    • 第4回 [数学]:『実分野における9個のテストパターンについて』その1その2:オンラインゲーム解析とキャンペーン事例に見る,テストにおける統計量の計算について説明する。
    • 第5回 [数学]:『実際にテストを体感する』:いくつかのテスト事例に対し,サンプルデータを提供し実際に統計量の算出を行ってもらう。新シリーズ:「Treasure Data Analytics」の枠組み内で紹介することになりました。
    (※ [読み物] は数学知識を前提としない内容で [数学] は数学知識をある程度前提としたおはなし。)

 

はじめに

 多くの人はA/Bテストについて色々と間違った解釈を持ってしまっているように思われる。その代表が,

「A/Bテストは,実施結果の判断(AとBに違いがあるか否か)を(統計量に基づく仮説検定を全く行わないで)人間が判断するものである」

と思われていることである。また何らかの統計的手法によってそれを行う事は何となく知っていても,

「A/Bテストは,統計的手法それ自信が完全な意思決定を行ってくれる(白黒はっきりしてくれるもの)ものではなく,最終的には人間の判断に委ねられるものである」

という認識は実際に実施してみないと気づかないことかもしれない。(前者と後者は矛盾するように思われるかもしれないが,後者は第3回で説明するのでそのときに理解してもらえるはず)。第1回は前者の部分,テストにおいて人間の感覚による判定がいかに難しいかを説明する。

 

題材:A/Bテスト

今回のゴールは「人間の感覚だけで次に挙げるいくつかのA/Bテストの結果を正しく判断できますか?できないでしょう?」という主張を理解してもらうことにある。

よくあるA/Bテストの事例を題材にしてみた:

Q.「あるトップページの1つのリンクを青から赤に変える事によってリンク先へのアクセス数が増えるのでは無いかという仮説を持っている実験者は,その違いをテストしてみることにした。そこでオリジナルのトップページ(A)と1つのリンクを赤にしたトップページ(B)を作成し,だいたいアクセスが半々に独立かつランダムに割り振られるようにして,A, Bそれぞれのアクセス数に対してそのリンクが実際に押された比率(Conversion Rate)を比較することにした。双方1000アクセス来た時点で比率を計算すると,Aが40%であったのに対しBは60%であった。さてこの結果を受けてAとBには本当に差があると言え,赤リンクにしたことに効果があったと判定できるだろうか。」

※ 現実問題などの具体的な問題を考える上で1番始めにすべきことは,問題をより単純な数学問題へすり替える事である。比率の差を比較するA/Bテストの類いは,以下のような単純なコイン投げの数学問題と同型である。(AとBが同じ数学的構造を持つとき,AとBを同型と呼ぶことにする。例えばこちらで定義した「コンプガチャ問題」と「Coupon Collector's Problem」は同型である。)

Q'.「表の出る確率がわからないコインAとコインBがある。表の出る確率をそれぞれ p_a, p_b とする。コインAとコインBは違う確率を持ったものであるという仮説を持っている実験者は,その違いをテストしてみることにした。コインA,Bをそれぞれ 1000回ずつ投げてみて,表の出る比率を比べることでそれを確かめようとしている。今,コインAの比率が 40%であったのに対しコインBの比率は 60%であった。この実験からコインAとコインBには違いがある(i.e. p_a ≠ p_b)と言えるだろうか。」

(※ A/Bテストのより一般的な定義(スケルトン)は第3回で与える。 )

このA/Bテスト判定問題に関して,多くの人は以下のように答えるだろう:

「[根拠1] Aに比べてBは1.5倍も多く表を出しており,[根拠2] しかも1000回という十分なサンプル数がある。よってAとBには結果に明らかな違いがあり,赤リンク効果が実証されている!」

実はこの答えは正しく,人間の感覚もまんざらでは無いと思われた事でだろう。(そもそも,Bの方が数値的に良かったのであるので「効果があった」という答えしかないであろうと思う人もいるかもしれない。統計の背後には確率というものが常に存在しており,その"偶然"という要素の作用によって本来は効果に違いなんてなかったのに,たまたま数値的な違いが現れてしまったという事も有り得るのである。詳しくはコラム参照。)

次に上記問題のバリエーションを考えてみて欲しい。(類似の問題が並べられている故に解答に戸惑ってしまうかもしれないが,それぞれ独立した問題として考えて欲しい。)

  • Q1. コインA,コインBをそれぞれ    10回投げてみて,40%, 60%であったとき
  • Q2. コインA,コインBをそれぞれ    40回投げてみて,40%, 60%であったとき
  • Q3. コインA,コインBをそれぞれ  100回投げてみて,40%, 60%であったとき
  • Q4. コインA,コインBをそれぞれ 1000回投げてみて,40%, 60%であったとき(Q'. と同じ)
  • Q5. コインA,コインBをそれぞれ 1,000回投げてみて,48%, 52%であったとき
  • Q6. コインA,コインBをそれぞれ 1,000回投げてみて,47%, 53%であったとき
  • Q7. コインAを 20回,コインBを 80回投げてみて,40%, 60%であったとき

さて,答えは以下となる(最後に手計算とRでの計算結果を載せている):

  • Q1. → 「差があるとは言えない」
  • Q2. → 「差があるとは言えない」
  • Q3. → 「差があると言える」
  • Q4. → 「差があると言える」
  • Q5. → 「差があるとは言えない」
  • Q6. → 「差があると言える」
  • Q7. → 「差があるとは言えない」

このバリエーション問題の難しい(間違える)のは,人間の感覚的な判断を揺るがす以下の要素が含まれるからである:

  1. サンプル数が少ない場合:Q2, Q3のようにサンプル数が少ない場合。サンプル数が多い方が違いを見極めやすい事を感覚的には知っているが,数がどれくらいあれば良いのかはわからない。(そもそもサンプル数を増やすと,違いがあると言いやすくなるという根拠がどこにあるのかもわからないかも。)
  2. 比率の差が接近している場合:Q5., Q6のように比率が47%と53%や48%と52%のように接近している場合,(「微妙」という答えは無いため)違うと言える差の境界がわからない。
  3. サンプル数が偏る場合:Q7のようにサンプル数が偏っている場合,双方の結果を平等に眺めることが難しくなる。(注:「サンプル数」= 「コインを投げる回数」)

このようにテストにおいて「違いの差」を考える際には上記のような人間の感覚が類推できる範囲を超えた,「サンプル数や双方の数の偏りとの関連の考慮」などが必要となってしまう。故に人間の感覚でA/Bテストの結果を判断するのは難しいのである。

 

現実社会での事例

では実社会で僕たちが,本来は差が無いと考えられる結果に動揺させられている事例を2つ程挙げてみよう。(計算方法はエントリー最後に掲載)

 1. 失業率

現在,労働力調査は,全国で無作為に抽出された約40,000世帯の世帯員のうち15歳以上の者約10万人を対象とし,その就業・不就業の状態を調査している。

全数調査では無い失業率は,もう1回調査を行ってみればその数値が前と異なっていることは大いに有り得る。にも関わらず本来悪化したとは言いいきれない失業率の0.1ポイントの増加(悪化)に対しても悲観的に報じられるメディアによって国民は不安に煽られてしまう。

問:「前月: 4.9%, 今月: 5.0%とした時,前月比較で0.1ポイントの失業率の増加は悪化したと言えるか? 」

答: 「悪化したとは言えない」

2. 年収500万円と2000万円の人の違い

手柄を社内にアピールするか否か」 (page2) 

年収500万円の300人と年収2000万人の200人に対する調査結果の解釈について。中には以下の様に年収間で差があるとは言い切れない結果もある。

問:「手柄を社内にアピールするか否かの調査結果は,年収間で差があると言えるか 」

答: 「差があるとは言えない」

※ 年収別の調査結果は,2×l 分割表の適合度検定の問題等,様々なテストを考える上で非常に興味深い。

 

コラム:テストに潜む ”偶然” のいたずらについて

統計の背後には必ず確率という概念が存在する。それを理解するために今度は僕たちはすでに答えを知っているという神の立場から,A/Bテストを考えてみることにしよう。

Case1: 『実はコインAとコインBは実は同じコインで,かつ表と裏が平等に出る( p_a = p_b = 1/2 )公平なコインである事を知っており,今これらのコインでテストしようとする実験者を眺めているとする。この時コインA, Bをそれぞれ10回投げた時,Aは表が出て4回出てBは6回出た。もう一度繰り返してみると,今度はAが2回,Bが8回であった』

Case2: 『今度はコインAの方がコインBより表が4倍出やすい( p_a = 4/5, p_b = 1/5 )とする。今これらのコインでテストしようとする実験者を眺めているとする。この時コインA, Bをそれぞれ10回投げた時,Aは表が出て4回出てBは6回出た。もう一度繰り返してみると,今度はAが2回,Bが8回であった』

Case1 の方は,10回のコイン投げるという実験を1セットと呼ぶなら,表が5回出るセットが最も多そうだけれども表が4回出ることも6回出るセットも十分に起こりうるだろう。よって実験者は「違いがあるとは言えない」と判断すべきと思うだろう。"偶然" Aの方は表が4回出てBの方は6回出た結果に対して,それを元が違うと判断するのは早計である,と。2回と8回出たケースに関しては,このセットはほとんど起こり得ないが確率 0 では無い。ただしこの場合は実験者は「違いがある」とまたも間違ってしまうが,答えを知らない立場からのその判断は賢明であると思うだろう。たまたま出にくい実験結果を得てしまった,運が悪かったねと言ってあげたくなる。(本来同じであることを違うと判断してしまうこの誤りは「第1種の誤り」と呼ばれていたりする。)

Case2 の方は,今度は本来コインは異なるものであるのに,4回と6回という結果を受けて実験者が「差が無いとは言い切れない」と判断しても仕方が無いと思うだろう。たいていはコインAとBで開きがあるケースが多いのに,運悪く両者の違いの小さなセットを得てしまったのだと。(違うのに同じと判断してしまうこの誤りは「第2種の誤り」と呼ばれていたりする。)

この2つのケースから言えるのは,答えを知らない立場の側が「賢明」と思われる判断を行っても,それが間違いであることが有り得ると言うことである。

僕たちは神ではないので答え(真の分布)を知ることはできない。よってその答えに対するヒント(サンプル)から答えを推定することしかできない。テストというのは統計的手法を持ってしても,偶然の ”いたずら” によって間違えてしまうこともあるのである。テストに対する統計的アプローチは,間違いの可能性は避けられないができるかぎり最適な方法を持って臨むことである。人間の感覚の判断というアプローチはこの偶然のいたずらによる影響と,「違い」の程度とサンプル数との関連を類推しきれない事の影響を受けてしまう故に,最適な方法とはほど遠いと考えられる。

 

問題の答え