본문 바로가기
AB 테스트

[A/B테스트] 05 관측 인과 연구는 어떻게 설계할까?

by 권미정 2023. 8. 15.

책 <A/B 테스트(론 코하비.다이앤 탕.야 쉬 지음)>의 '11장 관측 인과 연구'를 요약정리 및 관련 사례를 조사한 내용입니다.


무작위 대조 실험은 인과관계를 확립하기 위한 탁월한 표준이지만 때때로 그런 실험을 진행하는 것이 불가능하기도 합니다. 이런 경우, 가능한 설계 범위와 흔히 하는 실수가 어떤 것인지 이해하는 것이 유용하겠죠? 먼저 종합 대조 실험이 불가능한 경우부터 알아보겠습니다.

 

1. 종합 대조 실험이 불가능한 경우

'사용자가 휴대전화를 아이폰에서 삼성으로 바꾸는 것은 제품 계약에 어떤 영향을 미칠까?', '사용자들을 현재 사용하고 있는 서비스로부터 강제로 로그아웃시키면 얼마나 많은 사용자가 다시 돌아올까?'와 같은 질문들에 대한 답변을 하기 위해서는 특정 변화에 의한 인과 효과를 측정해야 하고, 이는 변화의 영향을 받는 집단과 그렇지 않은 집단을 비교해야 합니다.

"인과 추론의 기본 공식(2016)"은 다음과 같습니다.

실험군 결과 - 대조군 결과
= [실험군 결과 - 실험이 실행되지 않았을 경우 실험군 결과]
   + [실험이 실행되지 않았을 경우 실험군 결과 - 대조군 결과]
= [실험이 실험군에 미친 영향 + 선택편향]

이는 실험군에서 발생한 결과와 실험이 실행되지 않았을 경우 실험군에서 발생될 것으로 생각되는 결과의 비교가 인과관계 확립에 있어 중요한 개념임을 보여줍니다.

 

종합 대조 실험은 인과관계를 평가하기 위한 탁월한 표준입니다. 하지만 종종 종합 대조 실험을 제대로 수행할 수 없는 경우가 생기는데, 예시를 살펴보겠습니다.

  • 테스트할 인과적 행동을 조직이 통제할 수 없는 경우: 변화를 요구하기 위해 대가를 지불하다가는 편향된 결과를 가져오게 된다.
  • 사건의 수가 너무 적은 경우: 일회적 현상에서 그 반대의 경우를 추정하는 것은 매우 어렵다.
  • 실험이 실행되지 않는 대조군을 설정하는데 너무 많은 기회비용이 드는 경우: 실험을 실시하는 것이 어렵다.
  • 예상되는 가치에 비해 변화의 비용이 높은 경우: 예를 들어 일정 기간 후에 모든 사용자를 강제로 로그아웃하면 몇 명의 사용자가 이탈할까?
  • 실험단위를 적절하게 무작위 추출할 수 없는 경우: 통계적으로 낮은 유의성을 지닌다.
  • 실험내용이 비윤리적이거나 불법적인 경우: 예를 들어 유효하다고 생각되는 의학치료를 보류하는 경우

위의 상황에서 종종 가장 좋은 방법은 증거의 계층이 낮은 여러 방법을 사용해서 효과를 추정하는 것입니다. 그리고 이번 글에서 우리의 초점은 관측 인과 연구로부터 인과적 영향을 추정하는 데 있습니다. 관측 인과 연구는 보다 일반적인 관측 데이터 분석, 즉 후향적 데이터 분석과 구별해야 합니다. 둘 다 과거 로그 데이터를 기반으로 하지만, 관측 인과 연구의 목표는 가능한 한 인과적 결과에 가깝게 접근하는 것인 반면, 후향적 데이터 분석은 분포 요약하기, 특정 행동 패턴이 얼마나 일반적인지 확인하기 등과 같이 다른 목표를 가지고 있죠.

 

2. 관측 인과 연구를 위한 설계

관측 인과 연구에서는 '비교를 위해 대조군 및 실험군을 어떻게 구성할 것인가', '대조군과 실험군에 미치는 영향을 어떻게 모델링할 것인가'에 따라 여러 설계 방법이 있습니다.

① 단절적 시계열

단절적 시계열(ITS, Interrupted Time Series)은 적절한 실험군과 대조군을 할당하기 위한 실험군의 랜덤화는 불가능하지만, 시스템 내의 실험 변화 여부를 제어할 수 있는 준실험설계입니다. 이는 실험군과 대조군에 동일한 모집단을 사용해 모집단이 시간이 경과함에 따라 무엇을 경험하는가를 변화시키는 실험계획을 가리킵니다.

특히 실험하기 전에 여러 측정방법을 사용해서 실험 후 관심 있는 지표의 시간 흐름에 따른 추정치를 제공할 수 있는 반사실적 모델을 만듭니다. 실험 후 여러 측정을 수행하고, 실험 효과는 관심 지표에 대한 실제 값과 모델에 의해 예측된 값 사이의 평균 차이로 추정됩니다. 간단한 ITS의 한 가지 확장은 실험의 실행과 비실행을 선택적으로 여러 번 반복하는 것입니다. 영향을 유추하기 위해 정교한 모델링이 필요할 수 있고, ITS의 온라인의 예시로는 베이지안 구조 시계열 분석이 있습니다.

관측 인과 연구에서 교란효과가 있는 경우에 교란효과를 변화에 귀속되지 않도록 해야합니다. 여러 번 변화를 이리저리 시행하면 교란효과의 가능성을 줄이는 데 도움이 됩니다. ITS를 사용할 때의 또다른 문제는 사용자 경험에 관한 것입니다. 사용자가 자신의 경험이 앞뒤로 반전되고 있는 것을 알아차리는 경우, 이런 일관성의 결여는 사용자를 불쾌하게 하거나 불편하게 할 가능성이 있으며, 이러한 영향은 변화에 의한 것이 아니라 일관성의 결여에 의한 것일 수 있습니다.

 

사례 - 국가별 코로나 19 대응 정책과 확진자・사망자 수의 인과관계 분석

연구분석 틀

이 연구에서는 코로나 19에 대한 각 국의 방역정책이 어떻게 진행되었는지에 따라 확진자 수와 사망자 수에 관한 추이 분석을 통해 국가별 방역정책에 대한 성과를 평가하고 있습니다. 대응 체계나 국가별 정책을 독립변수(처치변수)로 보고 효과성을 비교・평가하는 것입니다.

한국을 비롯하여 단절적 시계열 비교집단 설계의 비교집단으로 선정한 일본, 미국, 스웨덴, 브라질 등 총 5개국의 코로나 19 정책에 대해서 평가합니다. 비교집단 선정 기준은 코로나 19 대응 정책에 관하여 언론에 가장 빈번하게 거론된 국가들 중 대륙별로 1개국입니다. 이렇게 선정한 이유는 이러한 국가들이 코로나 19 대응 정책을 가장 적극적 으로 시행하거나 가장 독특한 정책을 시행하여 단절적 시계열 비교집단 설계에 적합하다고 판단하였고, 대륙별로 비교집단 대상을 분산 선정한 이유는 지역적 변수가 허위변수 혹은 혼란변수로 작용하지 못하도록 통제하기 위함입니다. 각 국가에 대한 방역정책의 대응방식은 총 2단계로 나누어 평가하는데, 첫 번째는 코로나 19 감염에 따른 초기 대응방식에 대한 평가이고 두 번째는 백신 접종 완료자 비율이 전 국민 기준 일정 비율로 도달하였을 때 국가 방역정책의 변화가 있었는지 확인합니다. 이를 본 연구에서는 ‘백신 접종 후 대응정책의 변화’로 구분하여 표현하고 있습니다.

국가별 정책에 대한 분석 및 평가 요약

단절적 시계열 비교집단 설계를 통해, 대체로 전통적 계층주의와 개인 책임・자유방임을 통해 방역정책을 달성하고자 하였으며 이러한 방역정책의 거버넌스는 국가별로 사회, 문화적 차이에 따라 다르게 나타나게 된다는 것을 확인할 수 있었습니다. 하지만, 확진자, 사망자를 감소시키는데 있어 효과적인 영향을 미치지 못했다는 것을 확인하였습니다. 또한, 백신 도입에 따른 확진자 수, 사망자 수의 변화는 일관적으로 나타나지 않아 정확한 확인이 어려웠지만, 백신이 치명률을 감소시킨다는 사실은 확인할 수 있었습니다.

 

<참고 문헌> 김창환・문영세. (2022.3). 코로나 19 대응 정책의 평가: 단절적 시계열 비교집단 설계를 중심으로. 「한국정책과학학회보」, 26(1): 23~46.

 

② 교차배치 실험 설계

교차배치 실험 설계는 검색 엔진 또는 웹사이트 검색과 같은 순위 알고리듬 변경을 평가하는 데 사용되는 일반적인 설계입니다. 교차배치 실험에는 X와 Y의 두 가지 순위 알고리듬이 사용됩니다. 알고리듬 X는 결과 x1, x2, ... xn을 순서대로 표시하고 알고리듬 Y는 y1, y2, ... yn을 표시합니다. 교차배치 실험은 x1, y1, x2, y2, ... xn, yn와 같이 결과를 함께 섞고, 중복된 결과는 제거합니다. 알고리듬을 평가하는 한 가지 방법은 두 알고리듬의 결과에 대한 클릭률을 비교하는 것입니다. 이 설계는 강력한 실험 설계이지만 결과가 균질해야 하기 때문에 적용 가능성이 제한됩니다.

 

③ 회귀 불연속 설계

회귀 불연속 설계(RDD, Regression Discontinuity Design)는 실험을 적용하는 모집단을 식별하는 명확한 임계값이 있을 때 사용할 수 있는 방법입니다. 해당 임계값을 기준으로 임계값 바로 밑에 있는 모집단을 대조군으로 식별하고 임계값 바로 위에 있는 모집단을 실험군으로 비교해 선택 편향을 줄일 수 있습니다.

RDD에서 한 가지 중요한 문제는 다시 교란 요인입니다. RDD에서 임계값 불연속성은 동일한 임계값을 공유하는 다른 요인에 의해 오염될 수 있습니다.

RDD는 어떤 점수를 생성하는 알고리듬이 있고, 그 점수의 임계값을 기반으로 어떤 일이 발생할 때 자주 사용하는 방법입니다. 소프트웨어의 세계에서 이런 경우에는 RDD를 사용할 수도 있지만, 무작위 대조 실험을 사용하거나 두 가지를 혼합해서 적용할 수도 있습니다.

 

사례 - 교육복지 학교 지정과 학교 간 재정의 수직적 형평성 및 학력격차 완화의 인과관계 분석

문제 제기

본 연구의 목적은 교복특 정책이 학교 재정의 수직적 공평성 기여하는지 여부를 조사하는 것이고 이러한 연구결과를 바탕으로 교복특 정책이 학교의 학력격차 완화에 기여하고 있는 정도를 조사하는 것입니다. 이 연구는 특히 선행연구에서 제시된 연구 방법론에 대한 문제점 즉 가정, 학생, 학교에 대해 측정되지 않은 특성을 제어할 수 없음으로 인해 종래의 회귀분석으로는 교복특 정책 효과를 분석하기 어렵다는 연구결과(Dahl &Lochner, 2005; der Klaauw, 2005)를 반영하여 최근에 자주 사용되는 준실험적 연구설계 중 회귀불연속 설계를 활용하여 인과관계 확인에 우선을 두었습니다.

연구 방법

  • 자료 및 표본 : 2012년 서울시교육청 관할 384개 중학교를 분석단위로 하여 학교 알리미에 탑재된 정보를 수집
  • 연구 변수

  • 분석 방법 1: 교복특 학교 지정이 재정의 수직적 형평성에 미치는 영향
  • 분석 방법 2: 교복특 학교 지정이 학업 성취도에 미치는 영향

분석 결과 및 결론

회귀 불연속 설계를 통한 연구 결과, 교복특 정책이 학교 간 교육재정의 수직적 형평성을 제고하는 중요한 수단이고 교복특 지정으로 영어 학습부진아 비율이 줄어드는 점을 발견하였습니다. 

주목할 점은 교복특 지정으로 수학성취도에서 학습부진아 비율이 오히려 일반학교와 차이가 커진다는 점입니다. 이러한 결과는 교복특 학교에서 교육과정 혹은 학생의 학습에 구조적인 차이가 있음을 암시하고 있으나 영어성취도는 오히려 향상되었다는 점에서 그 차이는 전자에 의한 영향을 암시하고 있습니다.

 

<참고 문헌> 김경년・박정신. (2014.9). 교육복지 학교 지정이 학교 간 재정의 수직적 형평성 및 학력격차 완화에 미치는 영향: 회귀불연속 설계를 활용한 인과관계 분석. 「한국교육행정학회」, 32(3): 1~26.

 

④ 도구 변수 및 자연 실험

도구 변수(IV, Instrumental Variables)는 무작위 할당을 근사하는 기법입니다. 구체적으로, 이 기법의 주요 목표는 무작위 할당을 근사화할 수 있는 도구 변수를 찾아내는 것입니다.

예를 들어 군대에 다녀온 사람과 그렇지 않은 사람들의 소득차이를 분석하기 위해, 무작위 할당으로 개인의 군대 참여 여부를 결정하는 베트남 전쟁 징병 추첨 같은 것을 도구 변수로 사용할 수 있습니다. 이 예에서 추첨은 참석을 보장하지는 않지만, 참석율에 큰 영향을 미칩니다. 이 효과를 추정하기 위해, 2단계 최소제곱 회귀모델이 일반적으로 사용됩니다.

때때로 무작위만큼 똑같이 좋은 자연 실험이 발생할 수 있습니다. 의학에서 일란성 쌍둥이는 자연 실험으로 쌍둥이 연구를 수행 가능하게 합니다.

 

⑤ 성향 점수 매칭

또 다른 접근 방식은 계층화된 샘플링과 유사한 방식으로 사용자를 공통의 교란변수로 분류해서 유사한 대조 및 실험 집단을 구성하는 것입니다. 이 아이디어는 대조군과 실험군의 차이가 두 집단의 기본적 특성 차이로부터 오지 않도록 구성하는 것이 중요합니다. 예를 들어 Windows에서 iOS로 변경하는 사용자의 영향에 대한 외생적 변화를 조사하는 경우 집단의 인구통계학적 차이를 측정하는 것이 아닌지 확인해야 합니다.

공변량을 활용해 집단을 일치시키는 대신 "구축된 성향 점수"라는 하나의 수치를 이용해 집단을 일치시키는 성향 점수 매칭(PSM, Propensity Score Matching)으로 이 방법을 확장할 수 있습니다. 이 접근법은 온라인 광고 캠페인의 영향을 평가하기 위해 온라인 공간에서 사용됐습니다. PSM의 주요한 점은 오직 관찰된 공변량만을 고려한다는 것이며,  따라서 고려되지 않은 요인들로 인해 숨겨진 편향이 생길 수 있습니다.

 

3. 함정

관측 인과관계 연구가 때로는 최선의 선택이지만, 주의해야 할 많은 함정이 있습니다. 주요 함정은 예상치 못한 교란 요인입니다. 여기서 교란 요인은 측정된 효과뿐 아니라, 인과관계의 관심이 있는 변화로의 귀속에도 영향을 미칠 수 있는 요인들을 총칭합니다.

한 가지 흔한 유형의 교란 요인은 인식하지 못한 공통 원인입니다. 예를 들어, 마이크로소프트 오피스 365를 포함한 많은 제품의 경우 더 많은 오류를 경험하는 사용자는 일반적으로 이탈이 적습니다. 그렇다고 사용자의 이탈을 줄일 목적으로 더 많은 오류를 발생시키면 안 되겠죠. 왜냐하면 이 오류와 이탈률의 상관관계는 공통 원인인 사용량에 기인하는 것이기 때문입니다. 사용량이 많은 사용자들은 더 많은 오류를 발견할 가능성이 높지만 더 낮은 비율로 이탈합니다.

또 하나의 함정은 허위의 또는 기만적인 상관관계입니다. 강한 특이값에 의해 기만적인 상관관계가 발생할 수 있습니다. 예를 들어, 에너지 음료를 소비한 일반인들과 운동 성과는 관련이 없는 경우가 많음에도 프로 운동 선수들 소수가 에너지 음료를 소비했다는 것만 보고 이 음료의 마케팅 회사가 "우리의 에너지 제품을 마시면 운동 성과가 향상됩니다!"라고 주장할 수 있습니다. 상관관계가 인과관계를 나타내는 것은 아닌데 말이죠.

우리는 가설을 테스트할 때 인과관계 주장을 기각할 직관이 없을 때 그것을 믿어버리는 경향이 있습니다. 직관을 기르는 것은 가정의 질을 향상시키는 데 도움이 될 수 있지만 직관이 모든 가능한 문제를 해결해 주지는 않습니다. 따라서 인과관계 확립을 위한 과학적 표준은 여전히 종합 대조 실험입니다.


이번에도 퀴즈를 준비했습니다. 열심히 풀어주세요! (ง •̀ω•́)ง

 

Q1. 관측 인과 연구에 대한 설명으로 틀린 것을 2개 고르세요.

① 테스트할 인과적 행동을 조직이 통제할 수 없는 경우, 사용자에게 대가를 지불하며 행동 변화를 요구하면 좋은 실험을 수행할 수 있다.

② 실험하기 전에 여러 측정방법을 사용해서 실험 후 관심 있는 지표의 시간 흐름에 따른 추정치를 제공할 수 있는 반사실적 모델을 만드는 설계 방법은 단절적 시계열이다.

③ 교차배치 실험 설계는 검색 엔진 또는 웹사이트 검색과 같은 순위 알고리듬 변경을 평가하는 데 사용되는 일반적인 설계이다.

④ 도구 변수 기법의 주요 목표는 무작위 할당을 근사화할 수 있는 도구 변수를 찾아내는 것이다.

⑤ 상향 점수 매칭의 주요한 점은 관찰되지 않은 공변량도 고려해서, 숨겨진 편향이 생길 가능성이 없다는 것이다.

 

정답(드래그) : ① 변화를 요구하기 위해 대가를 지불하다가는 편향된 결과를 가져오게 된다. , ⑤ PSM의 주요한 점은 오직 관찰된 공변량만을 고려한다는 것이며,  따라서 고려되지 않은 요인들로 인해 숨겨진 편향이 생길 수 있다.

 

Q2. 아래 경우의 교란 요인이 무엇인지 쓰세요.

마이크로소프트 오피스 365를 포함한 많은 제품의 경우 더 많은 오류를 경험하는 사용자는 일반적으로 이탈이 적습니다. 그렇다고 사용자의 이탈을 줄일 목적으로 더 많은 오류를 발생시키면 안 됩니다.

정답(드래그): 인식하지 못한 공통 원인인 사용량

댓글