본문 바로가기
AB 테스트

[A/B테스트] 06 실험에 사용되는 중요한 통계 이론들

by 권미정 2023. 8. 29.

책 <A/B 테스트(론 코하비.다이앤 탕.야 쉬 지음)>의 '17장 온라인 종합 대조 실험에 사용되는 통계 이론'를 요약정리한 내용입니다.


들어가며

17장부터는 책의 5부가 시작되는데 주로 데이터 과학자와 통제실험의 설계 및 분석에 대한 심층적인 이해를 원하는 사람들을 위한 7가지 고급 분석 주제들을 다루고 있습니다. 그래서 내용이 이해하기 어려울 수 있습니다. 오늘 글에서는 가설 검정 및 통계적 검정력을 포함한 실험에 중요한 통계 이론들을 살펴보겠습니다.

 

2표본 t검정

2표본 t검정은 실험군과 대조군의 차이가 실제인지 또는 잡음인지를 결정하는 가장 일반적인 통계적 유의성 테스트로, 분산에 대한 두 평균 간의 차이 크기를 확인합니다. 차이의 유의성은 p값으로 표시되고, p값이 낮을수록 실험군과 대조군이 다르다는 것을 의미합니다.

2표본 t검정을 관심 지표 Y에 적용하기 위해 실험군 및 대조군에서 사용자에 대한 지표 관찰 값이 무작위 변수에 대한 상호독립적인 관찰값인 Yt 및 Yc라고 가정해 봅시다. 이때의 귀무가설(H0)은 Yt와 Yc가 평균이 같다는 것이고, 대립 가설(Ha)은 그렇지 않다는 뜻입니다.

 

2표본 t검정은 t-통계량인 T를 기반으로 합니다.

여기서 △=Yt-Yc는 실험군 평균과 대조군 평균 간의 차이로, 두 평균값의 차이에 대한 불편추정치입니다. 표본이 독립적이어서 공분산이 0이기 때문에

t-통계값 T는 단지 정규화된 버전의 △입니다. 직관적으로 T가 클수록 평균이 같을 가능성이 줄어드는데, 귀무가설을 기각할 가능성이 높다는 뜻입니다. 그렇다면 이를 어떻게 정량화할까요?

 

p값과 신뢰구간

이제 t-통계량 T가 있기 때문에 p값을 알 수 있습니다. 이는 실험군과 대조군 간에 실제로 차이가 없는 경우 T가 관찰된 값 또는 더 극단적인 값을 가질 확률입니다. 일반적으로 p값이 0.05보다 작은 경우 통계적으로 유의한 것으로 간주되고, 0.01 미만의 p값은 매우 유의한 것으로 간주됩니다.

p값의 올바른 해석은 귀무가설이 참일 경우 델타나 극단적인 델타를 관찰할 확률입니다. 베이즈 규칙을 사용해서 분석해 봅시다.

식에서 알 수 있듯, 수집된 데이터를 기반으로 귀무가설이 참인지 여부(사후 확률)를 알려면, p값뿐만 아니라 귀무가설이 참일 확률을 나타내는 우도(likelihood)도 필요합니다.

델타가 통계적으로 유의한지 여부를 확인하는 다른 방법은 신뢰구간이 0과 겹치는지 확인하는 것입니다. 95% 신뢰구간은 실제 차이를 95%의 경우에 포함하고 p값 0.05와 동등한 범위입니다. 95% 신뢰구간에 0이 포함돼 있지 않거나 p값이 0.05보다 작은 경우 델타는 0.05 유의 수준에서 통계적으로 유의합니다. 대부분의 경우 델타에 대한 신뢰구간은 관측된 값 양 옆으로 각각 표준편차 2배만큼의 범위를 갖습니다.

 

정규성 가정

대부분의 경우 t-통계량 T가 정규 분포를 따른다는 가정하에 p값을 계산하며, 귀무가설하에서 분포는 평균이 0이고 분산이 1입니다. 대부분의 실험에서 대조군 및 실험군에 대한 표본 크기는 적어도 수천에 해당합니다. Y의 표본 분포는 정규 분포를 따르지 않지만 표본 평균 Y는 일반적으로 중심 극한 정리로 인해 정규 분포를 따릅니다. 표본 크기가 증가함에 따라 표본 평균 Y의 분포가 보다 정규 분포에 가까워집니다.

표본 평균 Y가 정규 분포를 갖기 위해 필요한 최소 표본 수에 대한 하나의 법칙은 각 변수에 대해 355s제곱이며, 여기서 s는 아래 방정식에서와 같이 정의된 지표 Y의 표본 분포의 왜도(skewness)입니다.

수익과 같은 일부 지표는 왜도가 높은 경향이 있는데, 왜도를 줄이는 효과적인 방법 중 하나는 지표를 변경하거나 값을 제한하는 것입니다. 한편, 왜도가 더 작을 때 더 적은 수의 표본이 필요하다는 것이 일반적입니다.

2표본 t검정의 경우, 분포가 비슷한 두 변수의 차이에 집중하기 때문에 정규성 가정을 타당화하는 데 필요한 표본 수가 더 적은 경향이 있습니다. 실험군 및 대조군에 동일한 트래픽 할당이 있는 경우가 그러한데, 차이의 분포가 대칭에 가깝기 때문입니다.

만약 표본 크기가 정규성 가정에 부합할 정도로 충분히 큰지 궁금한 경우, 실험군 및 대조군에서 표본을 무작위로 섞어 귀무가설 분포를 생성하고 Kolmogorov-Smirnov, Anderson-Darling과 같은 통계 테스트를 사용해서 분포를 정규 곡선과 비교해서 테스트할 수 있습니다.

정규성 가정이 맞지 않는 경우, 순열 검정을 수행하면 시뮬레이션된 귀무가설 분포에 대한 관측치의 위치를 확인할 수 있습니다. 순열 테스트는 대규모로 실행하는 데 비용이 많이 들지만 보통 표본 크기가 작을 때 쓰이기 때문에 실제로 효과적입니다.

 

1, 2종 오류 및 검정력

모든 테스트엔 오류가 있습니다. 가설 검정에서는 1종 및 2종 오류가 있는데, 1종 오류는 실제 차이가 없는 경우에도 실험군과 대조군 간에 유의한 차이가 있다는 결론을 내리는 것입니다. 2종 오류는 실제로 있음에도 큰 차이가 없다고 결론을 내릴 때 발생합니다. p값 < 0.05인 경우에만 통계적으로 유의하다고 결론지어서 1종 오류율을 0.05로 통제할 수 있습니다. 이 두 가지 오류 사이에는 상충 관계가 있는데, p값 임계값이 높을수록 1종 오류율은 높아지지만 실제 차이를 놓칠 가능성이 낮아 2종 오류율이 낮아집니다.

2종 오류의 개념은 검정력(Power)으로 더 잘 알려져 있습니다. 검정력은 실제로 차이가 있을 때 변수 사이의 차이를 감지할 가능성, 즉 귀무가설을 거부할 확률입니다. 

 

검정력(Power) = 1 - 2종 오류

 

검정력은 델타로 파라미터화됩니다. 델타는 테스트에서 관심 있는 최소한의 차이 수준을 표현합니다. 수학적으로, 원하는 신뢰기준을 95%로 가정할 때, 식은 아래와 같이 됩니다.

업계 표준은 테스트에서 80% 이상의 검정력을 달성하는 것입니다. 따라서 충분한 검정력을 달성하기 위해 필요한 표본 수를 결정하기 위해, 실험을 시작하기 전에 검정력 분석을 수행하는 것이 일반적입니다. 실험군과 대조군의 크기가 같다고 가정하면, 두 집단 모두에서 80%의 검정력을 달성하는 데 필요한 총 표본 수는 위의 검정력 공식에서 도출할 수 있고 아래 식에 의해 근사치를 구할 수 있습니다.

여기서 델타 제곱은 표본 분산이고 델타는 실험군과 대조군의 차이입니다. 필요한 최소 표본 크기를 추정하려면 실제적으로 의미 있는 최소의 델타를 사용해야 합니다.

 

편향

실험 결과에서 추정치와 평균의 실제 값이 시스템적으로 다를 때, 편향이 발생합니다. 이는 플랫폼 버그, 결함 있는 실험 설계 또는 회사 직원 또는 테스트 계정과 같은 대표성이 떨어지는 표본으로 인해 발생할 수 있습니다.

 

다중 테스트

실험에 대해 100개의 지표를 계산하는 경우, 변수가 아무 효과가 없을 때에도 통계적으로 유의한 지표는 몇 개나 될까요? 유의 수준이 5%라면 답은 약 5입니다(지표들이 독립적이라고 가정). 문제는 수백 개의 실험을 수행하고 각 실험을 반복해야 할 때 더욱 심해집니다. 여러 가지를 병렬로 테스트할 때 허위 발견 수가 증가하는데, 이것을 "다중 테스트" 문제라고 합니다.

지표가 예기치 않게 유의하게 나타날 경우 어떻게 해야 할까요? 아래 간단한 2단계 규칙을 따르면 됩니다.

 

  1. 모든 지표를 세 그룹으로 분리하라.
    • 1차 지표: 실험에 영향을 받을 것으로 예상되는 지표
    • 2차 지표: 잠재적으로 영향을 받을 수 있는 지표 (예: 자기잠식을 통해)
    • 3차 지표: 영향을 받지 않을 것들
  2. 각 그룹에 계층별 유의 수준을 적용한다(예: 각 0.05, 0.01 및 0.001).

이러한 경험 법칙은 흥미로운 베이지안 해석을 기반으로 합니다. 실험을 실행하기 전에 귀무가설(H0)이 옳다고 생각하는 믿음이 강할수록 사용해야 하는 유의 수준이 낮아집니다.

 

피셔의 메타 분석

이번에는 동일한 가설에 대한 여러 테스트 결과를 결합하는 데 주목합니다. 예를 들어, 놀라운 결과를 얻은 실험을 반복하는 것은 일반적인 방법입니다. 반복은 이전 실험에 할당되지 않은 사용자나 독립적인 랜덤화를 통해 수행됩니다. 이 두 실험(원본과 반복)은 서로 독립적으로 p값을 생성합니다. 직관적으로 두 p값이 모두 0.05보다 작으면 하나의 p값이 0.05보다 작은 것보다 훨씬 강력한 증거가 됩니다. 피셔는 그의 메타 분석 방법에서 이 직관을 공식화하며, 아래 식에 표시된 것처럼 여러 독립적인 통계 감정의 p값을 하나의 검정 통계량으로 결합할 수 있다고 합니다.

여기서 pi는 i번째 가설 검정의 p값입니다. 모든 k 귀무가설이 참이면 이 검정 통계량은 2k 자유도의 카이 제곱 분포를 따릅니다. 

일반적으로 피셔의 방법은 검정력을 높이고 거짓 양성을 줄이는 데 유용합니다. 종종 최대 검정력 트래픽 할당 및 분산 감소와 같은 모든 검정력 증가 기술을 적용한 후에도 검정력이 저하될 수 있는데, 이 경우 같은 실험을 다양한 방법으로 반복하고 피셔의 방법으로 결합하는 것을 고려할 수 있습니다.


이번 글은 통계 이론이라 내용이 좀 어려웠던 것 같네요. 그럼 이번 문제도 열심히 풀어주세요!!

 

Q1. 온라인 종합 대조 실험에 사용되는 통계 이론에 대한 설명으로 틀린 것을 2개 고르세요.

① 2표본 t검정을 통해 분산에 대한 두 평균 간의 차이 크기를 확인할 수 있는데, 차이의 유의성을 표시하는 p값이 낮을수록 실험군과 대조군이 다르다는 것을 의미한다.

직관적으로 t-통계값 T가 클수록 평균이 같을 가능성이 줄어드는데, 이는 귀무가설을 기각할 가능성이 낮다는 뜻이다.

1종 오류는 실제 차이가 없는 경우에도 실험군과 대조군 간에 유의한 차이가 있다는 결론을 내리는 것인데, 1종 오류의 개념은 검정력(Power)으로 더 잘 알려져 있다.

④ 여러 가지를 병렬로 테스트할 때 허위 발견 수가 증가하는데, 이를 '다중 테스트 문제'라고 한다.

⑤ 동일한 가설에 대한 여러 테스트 결과를 결합할 때 실험을 반복하는 방법은 가장 일반적인 방법이다.

 

답(드래그):  ② 직관적으로 t-통계값 T가 클수록 평균이 같을 가능성이 줄어드는데, 이는 귀무가설을 기각할 가능성이 높다는 뜻이다. , ③ 검정력(Power)이라는 개념으로 더 잘 알려진 것은 1종 오류가 아니라 2종 오류이다.

 

 

Q2. 괄호에 들어갈 말 중 올바른 것을 골라주세요.

 

  • p값의 올바른 해석은 (대립가설/귀무가설)이 참일 경우 델타나 극단적인 델타를 관찰할 확률입니다.
  • 1종 오류와 2종 오류 사이에는 상충 관계가 있는데, p값 임계값이 높을수록 1종 오류율은 (높아지지만/낮아지지만) 실제 차이를 놓칠 가능성이 (높아/낮아) 2종 오류율이 (높아집니다/낮아집니다).

 

답(드래그): 귀무가설, 높아지지만, 낮아, 낮아집니다

댓글