A/Bテストの数理 - 第3回 [補足]:仮説検定の概念を改めて考える -

 

※ 第3回のブログを読んだけども,結局テスト(仮説検定)ってよくわかんないと言われるので,テストの概念をもう少し丁寧に説明することにした。特に「標本平均と母平均」,「帰無仮説を棄却すること」,「帰無仮説が棄却できないと何も言えないこと」について,焦点を当てている。

スケジュール

  • 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。
  • 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより本質的な問題である(かつ非常に難しい)。意義のある仮説を立てるためのヒントをいくつか考える。
  • 第3回 [数学]:『テストの基本的概念と結果の解釈方法について』:テストの基本的な数学的概念を説明し,またテスト結果をどのように解釈するのかを説明する。
  • 第3回補足 [数学]:『仮説検定の概念を改めて考える』:テストの概念をもう少し丁寧に説明する
  • 第4回 [数学]:『実分野における9個のテストパターンについて』その1その2:オンラインゲーム解析とキャンペーン事例に見る,テストにおける統計量の計算について説明する。
  • 第5回 [数学]:『実際にテストを体感する』:いくつかのテスト事例に対し,サンプルデータを提供し実際に統計量の算出を行ってもらう。新シリーズ:「Treasure Data Analytics」の枠組み内で紹介することになりました。

 

母集団と標本について

統計学ではほとんどの場合,今手元にあるデータは全て「標本」であると考える。標本とは,「母集団」と呼ばれる全体から抽出された一部分である。例えば完全失業率は,日本国民全体(母集団)の中からランダムに抽出された10万人(標本)に基づいて算出される。A/B テストで得られたAとBのそれぞれのコンバージョン数などのデータもまた標本でしかない。

 

母平均と標本平均について

「平均」という言葉には実は2種類の意味がある。「母平均」と「標本平均」である。この違いの認識は非常に重要であるが,少なからずの人は「標本平均」を「母平均」と混同しているように思われる。

「母平均」というのはまさに母集団全体から求められた平均であるので,言わば真の平均値であり,かつこれは"定数"である。 

一方「標本平均」というのは,母集団から"たまたま"集められた標本による平均であるので,必ずしも母平均とは一致しない。かつ,再度標本を取り直せばその値さえも変わってしまう。つまり標本平均とは "確率変数"である。

:今,毎回 0 から 9 までの数字が独立かつランダムに選ばれるプログラムから,5個の数字を取ってくるという行為を2回行うとする。この時,

  • 1回目は { 1, 4, 8, 3, 1 },
  • 2回目は { 5, 8, 2, 7, 0 }

 であったとする。この場合(母集団 { 0,1,2,3,4,5,6,7,8,9 } に対して),

  • 母平均: (0+1+2+3+4+5+6+7+8+9) / 10 = 4.5
  • 1回目の標本平均: (1+4+8+3+1) / 5 = 3.4
  • 2回目の標本平均: (5+8+2+7+0) / 5 = 4.2

となり,これら3つの平均はいずれも異なっている。

 

大数の弱法則中心極限定理

ただ僕たちは経験的に,標本数が大きければその標本平均は母平均にかなり近くなること(大数の弱法則)を知っている。また「多数の標本を抽出して標本平均を求める」試行を 1 セットとすると,これを数セット行ったときには,多くの標本平均が母平均の近くに密集するであろうこと(中心極限定理)も何となく知っている。

 

標本抽出における重要なルール:「同一」・「独立ランダム」

ところで,母集団から標本を得る際には,忘れてはいけない重要な仮定がある。それは「同一」かつ「独立ランダム」に標本を抽出してくることである。

  • 「同一」というのは同じ母集団から抽出してくるということである。
  • 「ランダム」に抽出するというのは,母集団から偏り無くまんべんなく抽出してくることである。そうでない場合というのは,例えば労働調査では,特定の県に偏って標本を取得することに該当する。この場合,母集団を良く代表する標本平均が得られたとは言いにくい。
  • 「独立に」抽出するというのは,標本同士が無関係であるということである。層で無い場合というのは,例えば労働調査では,まず最初に選んだ人に次の人を紹介してもらう,といった形で標本を取得していくことに該当する。独立で無い標本というのは傾向がどうしても似通ってしまうので,これも全体を良く代表する標本平均は得られにくい。 

 

「AとBの母平均に差があるか」という問題に対するアプローチ

 A/Bテストにおいて「AとB に違いがあるか」という問題は,「AとBの母平均に差があるか」という問題である。これに対するアプローチは,まず十分な数の標本からの標本平均を計算し,これを母平均の替わりをさせようとするところから始まる。

しかし,標本平均は"確率変数"であったので同じテストを複数回行うならば,標本平均 \bar{X}_A\bar{X}_B はだいたい各母平均の近くにばらつくものの,その位置関係・距離関係は毎回異なるのである。

ここで重要なのは,AとBの母平均を知り得る事はできない事である。あくまでもA, B の標本平均と標本分散しかわからない。このような状況で「母平均の違い」を判定することは本質的に難しい問題であると言える。下図は母平均が同じ/違う場合での \bar{X}_A\bar{X}_B位置関係のいくつかのケースを書いている。※ 以降では A と B の標本数は十分に大きいと仮定する。(クリックで図を拡大できる)

f:id:doryokujin:20120527091658p:plain

  • 左図は母平均が同じ(ここではあくまで母平均の違いについて関心があるので,分散は異なっていても良い)場合。A, Bの標本数が十分に大きければ,得られる各標本平均は同じ値の母平均の近くでばらつくので標本平均間の距離も小さくなる傾向がある。
  • 中図は母平均が異なる場合。得られるA, Bの標本平均は,各母平均の近くでばらつくので,標本平均の距離は自然と離れている傾向がある。
  • しかし右図のように母平均が異なる場合でも,"たまたま" A, Bの標本平均の距離が小さくなるようなケースが得られる場合もある。また逆に,母平均が同じ場合でも,"たまたま"標本平均の距離が離れる場合もある。この場合は厄介である。

では,どのようにしてAとBの真の「違い」を判断すれば良いのであろうか?A, B の標本平均がどれくらいの距離内におさまっていれば良いのだろうか?

 

帰無仮説を持って棄却する,というアプローチ

ここから前に進む方法は,まずは「母平均が等しい」と置いてみることから始まる。そのように仮定することで,2つの標本平均から新しい統計量 T を作ることができるのだ。この T もまた実験の度に変動する確率変数であるが,T は母平均が等しいという仮説の下で,平均 0,分散1の標準正規分布に従う。しかしこの仮定が不適切な場合は T はこの分布のはるか両端に追いやられることになる。つまり統計量 T への変換は「標本平均の差」が元々大きければ大きいほど両端遠くへ,小さければ小さいほど母平均値 0 の近くにばらつくようにする変換なのである。

また,T の従う分布は言わば「母平均が 0 であるという帰無仮説の支持率」を示す診断と考えて良い。「有意水準」というのは「この値以下の支持率なら帰無仮説を疑う」任意の値である。有意水準 0.05 というのは,「T の支持率が5%以下ならば帰無仮説を受け入れない」ことを意味する。

A,B の母平均が同じ場合

f:id:doryokujin:20120527155847p:plain

  • Case1 は母平均が同じで,共に母平均周りに標本平均がとれた場合。この場合,変換後の T は 0 の近くに移動する。この時の帰無仮説の支持率は非常に大きくなる。
  • Case2, Case3 では"たまたま"いずれかの標本平均がその母平均から離れた値であった場合だ。この場合は標本平均の差は大きくなり,変換後では両端にとばされてしまい,支持率は低いと見なされてしまう。(第一種の誤り

A,B の母平均が異なる場合(μ_A < μ_B)

f:id:doryokujin:20120527160124p:plain

A, B の母平均が異なり,かつ μ_A < μ_B の場合である。

  • Case4 の場合はもとの母平均の違いを標本平均が良く表しているために,変換後の T は右端へ追いやられる。これによって帰無仮説の支持率は低くなり「μ_A = μ_B」という帰無仮説は棄却され,「AとBには有意な差がある」と判断できる。
  • Case5, Case6 は厄介である。本来母平均が異なっていながら標本平均の差は近くなってしまっている場合だ。この場合は帰無仮説を支持し,棄却できないという「第二種の過り」を犯してしまうことになる。

A,B の母平均が異なる場合(μ_A > μ_B)

A, B の母平均が異なり,かつ μ_A > μ_B の場合である。

f:id:doryokujin:20120527160448p:plain

  • Case8, Case9 は先ほどと同じく,「第二種の過り」を犯してしまう例である。

A,B の母平均が異なる場合(μ_A < μ_B):片側検定

f:id:doryokujin:20120527160543p:plain

実は片側検定という考え方がある。AとBが単純に「違いがある」という対立仮説を作るのでは無く,「母平均Bの方がAよりも大きい」という対立仮説を立てる方法である。この場合「μ_A > μ_B」である事は全く関心が無いので,変換後の T が右側に飛ばされることがのみが棄却の動機になる。この場合の有意水準 0.05 というのは棄却域を,今まで両端併せて 5% の領域と考えていたものが,今度は右側だけ考えて全体の 5% の領域となる。同じ値 T でも両側検定と片側検定の場合ではp-値が異なってくる。

 

「帰無仮説を棄却できない→何も言えない」というロジックについて

さて,帰無仮説を棄却できない場合は「AとBは同じ」と結論づけるのではなく,「何も言えない」という結論をするべきだと何度も行ってきたが,ここで改めてその理由を考えてみよう。

上図の Case5, Case6, Case8, Case9 をもう一度見て欲しい。このケースは本来AとBに差があるのに棄却できなかった第二種の誤りの例であるが,これらがどれくらいの確率で起こりうるのかは全く未知なのである。もし本来異なるのに同じと判断してしまう確率が 30% だったらどうしよう?「同じである」と判断しても,30% で間違っているのだからテストの信憑性は全く無くなってしまう。このように,帰無仮説を容認することは,未知の確率で起こる第二種の誤りを内在することになってしまうので,精神衛生上大変よろしくないである。「何も言えない」という判断は,これよりはむしろ無難な判断をしているといえる。