본문 바로가기
AB 테스트

[A/B테스트] 04 실험을 잘 실행하려면 어떤 지표와 OEC가 필요할까?

by 권미정 2023. 8. 8.

책 <A/B 테스트(론 코하비.다이앤 탕.야 쉬 지음)>의 '07 실험을 위한 지표와 종합 평가 기준'을 요약정리한 내용입니다.


온라인 종합 대조 실험을 잘 설계하고 실행하려면 효과적인 지표와 종합 평가 기준(OEC)가 필요하다는 것은 이제 다 알고 있는 사실입니다. 그러면 어떤 특성을 가져야 좋은 지표와 종합 평가 기준일지 알아볼까요?

 

1. 비즈니스 지표로부터 실험에 적절한 지표 작성하기

데이터 기반 조직은 종종 목표, 동인 및 가드레일 지표를 사용해서 투명성과 설명책임에 따라 비즈니스 목표를 조정하고 실행합니다. 하지만 이러한 비즈니스 지표는 온라인 실험에 직접적으로 유용하진 않을 수 있는데요. 실험에 대한 지표는 아래 세 가지 고려할 사항이 있기 때문입니다.

 

측정 가능해야 한다 단기(실험 기간)에 측정할 수 있어야 하고 계산이 가능해야 합니다. 하지만 구매 만족도와 같이 모든 것을 쉽게 측정할 수 있는 것은 아닙니다.
귀속 가능해야 한다 실험의 목적에 맞게 지표를 계산하려면, 실험의 변형군에 지표값을 귀속시킬 수 있어야 합니다. 예를 들어, 어떤 '실험군'이 '대조군'보다도 높은 앱 충돌율을 발생시키는지 여부를 분석하기 위해, 앱 충돌을 이들 변형군에 연결시킬 수 있어야 합니다.
민감하고 시기적절해야 한다 실험 지표는 시기적절하게 중요한 변화를 감지할 수 있을 정도로 민감해야 합니다. 민감도는 기초가 되는 지표의 통계적 분산, 효과의 크기(실험에서 실험군과 대조군 사이의 델타) 및 무작위 추출 단위(사용자 등) 수에 따라 달라집니다. 

 

이러한 고려사항을 보면 비즈니스 보고 목적으로 사용되는 모든 지표가 실험에 적합한 것은 아니라는 것을 알 수 있습니다. 의심스러울 때 더 많이 측정해야 하는 것도 중요하지만, 더 중요한 것은 스스로 '무엇을 위해 최적화하고 있는가'에 대해 깊이 생각하는 것입니다. 예를 들어, 품질 측면은 생각하지 않은 채 최적화하는 지표를 사이트에서의 체류시간으로 결정해서 사용자가 사이트에 오래 체류하도록 불필요한 페이지와 느린 사이트를 만들어낸다면, 단기적으로는 지표를 개선시키지만 장기적으로는 낮아진 품질로 인해 사용자가 이탈하는 원인이 될 수 있습니다.

 

위 세 가지 말고도 추가로 고려해 볼만 한 지표들이 있습니다.

 

  • 비즈니스 목표 및 동인을 위한 대리 지표의 추가
  • 특정 기능의 움직임을 이해하는 데 도움이 되는 기능 수준 지표와 같은 보다 세분화된 지표 (ex. 페이지 클릭률)
  • 신뢰도 가드레일 및 데이터 품질 지표의 추가
  • 진단과 디버그 지표의 추가

 

2. 주요 지표를 OEC로 결합하기

여러 가지 목표와 동인 지표를 갖고 있는 상황이 주어졌을 때, 하나의 지표만 선택해야 할까요 아니면 둘 이상의 지표를 유지해야 할까요? 아니면 그것들 모두를 하나의 조합 지표로 결합할까요?

실제로 많은 조직은 여러 가지 주요 지표를 검토하고, 이들 지표들의 특정 조합을 고려할 때, 어떤 트레이드오프를 수용할지에 대한 모델을 마음 속에 가지고 있습니다. 예를 들어 어떤 실험에 의해 사용자를 잃었음에도 불구하고, 남아있는 사용자의 참여와 매출이 충분히 증가해 사용자의 손실을 상쇄하는 경우, 실험에 의해 얼마나 많은 사용자를 잃어도 좋을지에 대해 좋은 아이디어를 갖고 있습니다.

 

많은 경우엔 여러 지표를 가중 조합한 OEC를 고안하는 것이 더 바람직한 해결책이 될 수 있습니다. 그리고 다른 지표와 마찬가지로 합성된 지표가 조작 가능하지 않도록 확실하게 하는 것이 중요합니다.

여러 지표를 갖고 있는 경우, 각 지표를 사전 정의된 범위(예: 0-1)로 정규화하고 각 지표에 가중치를 할당해서 가중합을 도출할 수 있습니다(Roy(2001)). 처음에는 어려울 수 있지만, 결정을 네 개의 그룹으로 분류하는 것부터 시작할 수 있습니다.

 

  1. 모든 핵심 지표가 변화가 0(통계적으로 유의하지 않음)이거나 양수(통계적으로 유의함)이고, 적어도 하나의 지표가 양수인 경우, 변경을 실시한다.
  2. 모든 핵심 지표의 변화가 0이거나 음수이고, 적어도 하나의 지표가 음수인 경우, 변경을 실시하지 않는다.
  3. 모든 핵심 지표가 0이면 변경을 실시하지 않고, 실험 검정력을 높이거나, 빨리 실패로 간주하거나, 방향 전환을 고려하라.
  4. 일부 핵심 지표가 양이고 일부 핵심 지표가 음이면 트레이드오프를 기반으로 결정한다. 당신이 이러한 결정을 충분히 축적했을 때, 당신은 가중치를 할당할 수 있을 것이다.

핵심 지표를 단일 OEC로 결합할 수 없다면, 핵심 지표의 수를 최소화해야 합니다. 지표가 너무 많으면 인지 과부하와 복잡성을 야기할 수 있고, 잠재적으로 조직은 주요 지표를 무시하는 방향으로 갈 수 있습니다. 지표의 수를 줄이면 통계에서 여러 가지 비교 문제에도 도움이 됩니다. 한 가지 대략적인 경험 법칙은 핵심 지표를 다섯 개로 제한하는 것입니다. 강력한 0.05의 p값 임계값을 사용하는 것은 그 자체로 남용될 수 있습니다. 지표가 많으면 많을수록, 1개 이상의 지표가 통계적으로 유의하게 될 가능성이 커져서 지표가 충돌 또는 의문을 야기하는 문제가 발생할 가능성이 커집니다. 하지만 합의된 OEC의 확실한 이점은, 단순한 실험과 파라미터 스윕을 사용함으로써 실험에 의한 개선을 자동화할 수 있다는 점입니다.

 


 

OEC의 예시 - 아마존 이메일

아마존은 다양한 조건을 바탕으로 특정 고객을 선정했고, 이들 고객에 대해 프로그램화된 캠페인을 기반으로 하는 이메일을 보내는 시스템을 아래와 같이 구축했습니다.

상품 주문 후 발송하는 확인 메일에서 다른 고객들이 같이 구매했다고 하는 연관 제품을 추천하고 있다. (이미지 출처: https://shopigate.co.kr/blogs/news/고객의-구매-잠재력을-끌어내는-마케팅-상향-판매와-교차-판매)

  • 이전에 구입한 저자의 신간 서적: 캠페인으로 고객들에게 새로운 출시에 관련된 이메일을 보낸다.
  • 구매 이력: 아마존의 추천 알고리듬을 이용한 한 프로그램이 "Amazon.com에서는 당신이 구매했거나 보유하고 있다고 알려준 아이템을 바탕으로 새로운 상품을 추천하고 있다."는 이메일을 보낸다.
  • 크로스 폴리네이션(Cross pollination): 많은 프로그램에서 특정 아이템을 구매한 고객에 대해 이메일로 제품 추천을 송신하기 위해 사람에 의해 특정 제품 카테고리 조합이 매우 구체적으로 정의됐다.

 

문제는 이러한 프로그램에 어떤 OEC를 사용해야 하는가 입니다. 초기 OEC 즉 아마존에서 호출된 "적합도 함수(fitness function)"는 이메일에 클릭을 한 사용자로부터 창출된 매출에 기초해 프로그램에 크레딧을 제공했습니다.

또 하나의 문제는 이 지표가 이메일 양과 함께 단조 함수로 증가한다는 점입니다. 더 많은 캠페인과 더 많은 이메일이 단지 매출을 증가시킬 뿐이며, 이는 사용자들을 스팸화하는 것으로 이어집니다. 사용자들이 너무 많은 이메일을 받는 것에 대해 불평하기 시작하면서 문제점이 드러나기 시작했는데, 아마존의 초기 해결책은 사용자가 매 X일마다만 이메일을 수령하는 제약 조건을 추가하는 것이었습니다. 아마존은 이메일 트래픽 경찰을 구축했지만, 문제는 그것이 최적화의 대상이 됐다는 것이었습니다. 만약 사용자들이 이메일이 정말로 유용하다고 생각한다면, 어떤 사용자들이 더 많은 이메일을 수신해도 좋다고 생각하는지를 판별할 수 있을까 등으로 문제가 바뀌었죠.

 

이들의 주요 통찰력은 클릭율 매출 OEC가 사용자 생애가치 대신 단기 매출에 최적화되고 있다는 것이었습니다. 짜증 난 사용자들이 이메일 수신을 취소하면, 아마존은 미래에 그들을 타켓팅할 기회를 잃게 됩니다. 그래서 아마존은 사용자가 이메일 수신을 취소할 때의 사용자 생애 기회 손실에 대한 하한을 설정하기 위한 간단한 모델을 만들었습니다.

 

  • i = 변형군별 이메일 수신자의 범위를 커버한다(여기서 Rev는 매출)
  • s = 변형군 내의 수신취소자 수
  • unsubscribe_lifetime_loss(수신취소 생애 손실) = "일생" 동안 사람에게 이메일을 보낼 수 없음으로 예상되는 매출 손실
  • n = 변형군 내 사용자 수

아마존이 수신 취소의 생애 손실에 대해 단지 몇 달러만 할당하고 이 OEC를 실행했을 때도 프로그램 캠페인의 절반 이상이 부정적인 OEC를 보여주고 있었습니다. 그런데 더욱 재미있게도, 수신 취소가 그렇게 큰 손실을 초래한다는 인식으로 새로운 구독 취소 페이지를 만들었는데, 여기서의 기본값은 아마존의 모든 이메일이 아닌 이 "캠페인 군"의 이메일 수신을 취소하는 것이었고, 이것 때문에 수신 취소 비용을 대폭 줄일 수 있었다고 하네요!


이번 글에서도 퀴즈 2개를 준비했습니다! 열심히 풀어주세요~ ٩( ᐛ )و

 

Q1. 온라인 종합 대조 실험에 효과적인 지표를 작성하기 위해서 고려해야 할 사항 3가지는?

 

답(드래그): 측정 가능해야 함, 귀속 가능해야 함, 민감하고 시기적절해야 함

 

Q2. 여러 가지 목표와 동인 지표를 갖고 있는 상황이 주어졌을 때 바람직한 OEC에 대한 설명으로 틀린 것은?

 

① 하나의 지표만 선택하는 것보다, 여러 지표를 가중 조합한 OEC를 고안하는 것이 더 바람직한 해결책이다.

② 핵심 지표를 단일 OEC로 결합할 수 없다면, 차라리 핵심 지표의 수를 최대한 많이 해야 한다.

③ 합의된 OEC의 확실한 이점은, 단순한 실험과 파라미터 스윕을 사용함으로써 실험에 의한 개선을 자동화할 수 있다는 점이다.

④ 아마존의 주요 통찰력은 클릭율 매출 OEC가 사용자 생애가치 대신 단기 매출에 최적화되고 있다는 것이었고, 아마존은 사용자가 이메일 수신을 취소할 때의 사용자 생애 기회 손실에 대한 하한을 설정하기 위한 OEC를 만들었다.

 

답(드래그): ② 핵심 지표를 단일 OEC로 결합할 수 없다면, 핵심 지표의 수를 최소화해야 한다.

댓글