A/Bテストの数理 - 第4回:実分野における9個のテストパターンについて その2 -

 

(前ページからの続き)

2. Hypothesis-Driven Testing 〜キャンペーン施策を事例に〜

事例6. (A/Bテスト:2つの比率の差のテスト,ただし排反データ)

『あるメーカーAは新しいビールXを開発した。今,斬新なデザイン1を採用するか無難なデザイン2を採用するかを決めかねている。そこで実際にあるお店で300人の買い物客にどちらのデザインが良いかを選んでももらう実験をした。結果はデザイン1が163人,デザイン2が137人であった。さて一見デザイン1の方が人気のようであるが,優位な差が見られるだろうか』 

解:デザイン1の比率を p_1,デザイン2の比率を p_2 とする。n = 300, \tilde{p}_1 = 163 / 300 = 0.542,\tilde{p}_2 = 137 / 300 = 0.457 である。

帰無仮説:「p_1 = p_2 (= p)」,対立仮説:「p_1 ≠ p_2」

統計量:帰無仮説の下で,

T=\frac{(p_1-p_2)}{(1/n)\{(p_1+p_2)-(p_1-p_2)\}^2} は 標準正規分布 に従う。p_1p_2 を標本比率 \tilde{p}_1\tilde{p}_2 で置き換え,

T=\frac{(0.542-0.457)}{(1/300)\{(0.542+0.457)-(0.542-0.457)\}^2}=1.540

よって p-値は,pnorm(1.540) = 0.06 > 0.025 。

∴ 帰無仮説は棄却されず,デザインに差があるとは言えない。

 

事例7. (2つの母平均の差のテスト)

問:『今度はライバルメーカーBのビールYを用意し,220人の客に両者を飲んでもらいそれぞれのビールに 10 段階評価を付けてもらったところ,以下のテーブルを得た。ビールXの方が評価が良さそうであるが,ビールXとYの間には評価に差があると言えるか』

nビールXの評価(x_i)ビールYの評価(y_i)d(=x_i-y_i)d^2
1 8 6 +2 4
2 6 7 -1 1
3 9 5 +4 16
... ... ... ... ...
220 8 6 +2 4
- - +308 1012

解:ビールXの平均評価を \mu_x,ビールYの平均評価を \mu_y とし,その差の平均を \mu_d とする。標本数 n = 220, \bar{d}=\frac{\Sigma d}{n}=\frac{\Sigma(x_i-y_i)}{n} 標準偏差 s_d=\sqrt{\frac{\Sigma d^2-n\bar{d}^2}{n-2} とする。

帰無仮説:「 μ_d = 0」,対立仮説:「 μ_d ≠ 0」

統計量:帰無仮説の下で,

T=\frac{\bar{d}}{s_d/\sqrt{n}} は 標準正規分布 に従う。

T=\frac{1.4}{1.63/\sqrt{220}}=12.74

よって p-値は,pnorm(12.74) = 0 < 0.025 。

∴ 帰無仮説は棄却され,ビールの評価には有意な差があると言える。

 

事例8. (ブランディングスイッチ:対称性の適合度検定)

問:『メーカーA は大規模なイベントを実施し,ブランディング効果の向上を図ろうとした。以下は175人に対して実施した,イベント実施前と後の,ライバル含む 3 メーカーでの好みブランドのアンケート結果である。さてさて,このキャンペーンによって有意な好みの推移が起きたであろうか。』

f:id:doryokujin:20120525130854p:plain

解:

帰無仮説:「 p_{ij}=p_{ji},\qquad\qquad 1\leq i\leq j\leq 3

統計量:帰無仮説の下で,

\tilde{p}_{ii}=y_{ii}/n\tilde{p}_{ij}=\tilde{p}_{ji}=(y_{ij}+y_{ji})/(2n)最尤推定量。

T=\Sigma_i \Sigma_j \frac{\left(y_{ij}-\frac{y_{ij}+y_{ji}}{2}\right)^2}{\left(\frac{y_{ij}+y_{ji}}{2}\right)}\chi^2(\n) に従う。a をカテゴリ数として, \n={a \choose 2} である。

T=\frac{(1-12)^2}{(1+12)}+\frac{(1-12)^2}{(1+12)}+\frac{(5-3)^2}{(5+3)}=19.2\n=3

よって p-値は,chisq_(19.2, 3) = 0.03 < 0.05 。

∴ 帰無仮説は棄却され,ブランドの推移があったといえる。

 

3. その他

事例9. (小標本の母比率の検定)

問:『シーズンも後半にさしかかった頃,最近まで打率 .350 の首位打者であったイチローは,ここにきて20打数3安打と振るわなくなり,首位打者の座が危惧されている。さて最近のイチローの成績はとりわけ悪いといえるだろうか,それともたまたまであろうか』

解:最近の打率を p とする。最近の打席数を n,実現値を t とおく。ここでは n =20, t = 3 となる。標本数が少ないことに注意する。

帰無仮説:「p = p_0 (= 0.35)」,対立仮説:「p < 0.35」

統計量:帰無仮説の下で,

T=\frac{m_2p_0}{m_1(1-p_0)}F(m_1,\qquad m_2) に従う。今,m_1=2(t+1)=2(3+1)=8,\qquad m_2=2(n-t)=2(20-3)=34 なので,

T=\frac{34*0.4}{8*(1-0.4)}=2.833 は F(8, 34) に従う。

よって p-値は,pf(2.833, 8, 34) = 0.016 < 0.025 。

∴ 帰無仮説は棄却され,イチローは最近とりわけ成績が悪いと言える。

※ 仮に帰無仮説が棄却できなかった時は成績に関して「何もわからない」ことになる。

 

事例10. (無相関検定,相関と因果)

(「明解演習 数理統計」より,面白い問題があったので利用させてもらった。)

問:『「馬鹿はカゼをひかない」という俗説の信憑性を統計学的に立証しようとよくカゼをひくM君が彼の学友25名を任意抽出して,最近1年間にカゼにかかった回数と数学の成績との相関関係を計算したら,なんと0.41であった。カゼの回数と数学の成績は関係があるといえるか。』

解:母相関係数を ρ とする。

帰無仮説:「ρ = 0」,対立仮説:「ρ ≠ 0」

統計量:帰無仮説の下で,

T=\frac{\sqrt{n-2}r}{\sqrt{1-r^2}}t(n-2) に従う。今,n = 25, r = 0.41 なので

T=\frac{\sqrt{25-2}*0.41}{\sqrt{1-0.41^2}}=2.156

よって p-値は, t(2.156, 23)=0.0209 < 0.025 。

∴ 帰無仮説は棄却され,カゼの回数と数学の成績は相関があると言える。

※ しかし,ここで注意すべきはたとえ結果から相関関係は導かれても,因果関係を導いたことにはなっていないということである。相関は言えても因果:「数学の成績が悪い【から】カゼの回数が少ない」i.e.「馬鹿はカゼをひかない」とは言い切れないのである。

そもそもこの問題は因果関係:「馬鹿はカゼをひかない」をいう仮説を,無相関検定のみで立証しようとしたこと(相関関係は因果関係を含意しない )ところに誤りがある。因果関係の妥当性を示すには有意な相関(密接性)と時間性、普遍性、特異性、合理性を示す必要がある。