본문 바로가기
AB 테스트

[A/B 테스트] 01 온라인 종합 대조 실험 사례들

by 권미정 2023. 6. 26.

책 <A/B 테스트(론 코하비.다이앤 탕.야 쉬 지음)>의 '01 소개와 동기'를 요약 및 관련 사례 조사를 정리한 내용입니다.


1장의 시작은 검색 엔진 '빙'의 사례였습니다. 2012년 빙은 광고 헤드라인 표시법을 바꾸기 위해 6개월 이상 여러 아이디어를 구현하고 평가했지만, 결과적으로는 두 줄이었던 타이틀 라인을 하나로 합치는 작고 쉬운 코드 수정을 통해서 매출 증가를 이룰 수 있었습니다. 이것은 지금부터 공부를 시작할 A와 B 또는 대조군과 실험군의 2개 종류를 비교하는 가장 간단한 형태의 종합 대조 실험, 즉 'A/B 테스트'의 예시입니다.

 

위 빙의 사례를 통해 온라인 종합 대조 실험의 핵심 주제를 알 수 있습니다.

  • 아이디어의 가치는 평가하기 힘들다.
  • 작은 변화도 큰 영향을 줄 수 있다.
  • 큰 영향을 발생시키는 실험은 드물다.
  • 실험을 실행하는 오버헤드는 적어야 한다.
  • 전체 평가 기준(OEC)이 분명해야 한다.

 

온라인 종합 대조 실험 용어들

온라인 종합 대조 실험은 에어비앤비, 아마존, 부킹닷컴, 이베이, 페이스북, 구글 등 모두가 아는 IT 기업들에서 많이 사용됩니다. 이 회사들은 매년 수천에서 수만 개의 실험을 실행하고, 때로는 수백만 명의 사용자와 연관돼 모든 것을 테스트합니다.

 

가장 일반적인 온라인 종합 대조 실험에서 사용자는 실험군과 대조군에 무작위로 분할되며, 한 번 지정된 분할은 바뀌지 않습니다. 위 빙의 사례에서의 '대조군'은 광고의 원래 표시였고, '실험군'은 더 긴 제목을 가진 광고의 표시였습니다. 사용자의 빙 웹사이트에서의 사용내역을 관찰 및 기록하고, 기록된 데이터로부터 지표를 계산해 광고 간의 차이를 평가하는 것입니다.

 

① 전체 평가 기준(OEC)

OEC는 실험 목적의 계량적 지표입니다. 예를 들어 OEC를 사용자별 활동일 수로 정하면, 이는 실험 중 사용자가 방문해서 어떤 행동을 취한 일 수를 가리킵니다. 이 OEC를 늘린다는 것은 사용자들이 해당 사이트를 더 자주 방문한다는 것이니 좋은 결과물이겠죠? 

OEC는 단기적으로(실험 기간 동안) 측정할 수 있어야 하고, 결과적으로는 장기적 전략목표를 추진하는 원인이라고 믿을 수 있는 것이 되어야 합니다.

② 파라미터

파라미터는 OEC 또는 기타 관심 지표에 영향을 미치는 것으로 간주되는 통제 가능한 실험 변수입니다. 파라미터에는 값이 할당되는데, 이를 수준이라고 합니다.

단순 A/B 테스트 일반적으로 두 개의 값을 갖는 단일 파라미터 사용
온라인 세계 여러 값을 가진 단일 파라미터(단일 변수) 사용
다변수 테스트 다중 파라미터를 함께 평가해 파라미터가 상호작용할 때의 전역적 최적값을 발견할 수 있도록 함

③ 변형군

테스트되는 사용자 경험으로서 일반적으로 파라미터의 값에 의해 사용자에 어떠한 경험이 할당되는가가 결정됩니다. 간단한 A/B 테스트에서 A와 B는 보통 '대조군'과 '실험군'이라고 불리는 두 개의 변형군입니다. 여기서 대조군은 특별한 변형군, 즉 비교를 할 대상이 되는 기존 버전의 변형군으로 간주합니다.

④ 무작위 추출 단위

의사 무작위 추출 과정에 의해 실험단위를 각 변형군에 랜덤하게 할당합니다. 높은 확률로 인과관계를 판별할 수 있도록 상이한 변형군에 할당된 사용자들이 통계적으로 비슷해야 하기 때문에, 적절한 무작위 추출은 중요합니다. 실험 설계가 각 변형군에 동일한 비율의 사용자를 할당하는 경우, 각 사용자는 각 변형군에 할당될 확률이 같아야 합니다. 또 단위를 지속적이고 독립적인 방식으로 변형군에 할당해야 합니다. 

 

실험의 이유? 상관관계, 인과관계, 신뢰성

상관관계는 인과관계와 같은 말일까요? 예를 들어 오류 메시지가 뜨고 충돌을 경험한 오피스 365 사용자들의 이탈률이 낮다고 해서 오피스 365에 오류 메시지를 더 많이 표시하거나 코드 품질을 낮춰 더 많은 충돌을 경험하게 하면 이탈률이 낮아질지 생각해 봅시다. 제품을 많이 오래 사용 중인 사용자는 당연히 다른 신규 사용자보다 오류 메시지가 더 많이 표시되고, 충돌이 더 발생하고, 이탈률이 더 낮겠죠? 이렇게 상관관계는 인과관계를 의미하지 않고, 이런 관찰에 지나치게 의존하면 잘못된 결정을 내리게 됩니다.

 

무작위 추출 종합 대조 실험은 인과관계를 확립하는 최고의 기준입니다. 종합 대조 실험의 체계적 검토, 즉 메타분석은 더 많은 증거와 일반화 가능성을 제공합니다.  기업들에서 사용하는 실험 플랫폼은 실험자들이 그 결과에 대한 높은 신뢰도를 갖고 연간 수만 건의 온라인 실험들을 실행할 수 있게 해 줍니다.

 

이 책의 핵심은 실험에서의 잠재적 오류를 알아보고 결과에 대한 신뢰도를 높이는 방법을 알려주는 것입니다. 온라인 대조 실험은 신뢰할 수 있는 데이터를 대규모로 전자적으로 수집하고, 적절하게 무작위 추출하며, 함정을 피하거나 탐지하는 데 있어 최고의 능력을 제공합니다.

 

유용한 종합 대조 실험 실행을 위한 필수 재료

이제 유용한 대조 실험을 수행하는 데 필요한 기술적 요소들을 알아볼까요?

  1. 서로 간의 간섭 효과 없이 여러 변형군에 할당될 수 있는 실험 단위(예: 사용자).
  2. 종합 대조 실험에 충분한 실험 단위(사용자 수). 수천 개의 실험 단위를 권장하며, 숫자가 클수록 더 작은 효과도 탐지할 수 있다.
  3. 실제로 평가 가능하면서도 다른 사람도 동의하는 핵심지표(이상적인 OEC). 목표를 측정하기가 너무 어렵다면 대체 지표에 대해 합의하는 것이 중요하다.
  4. 용이한 변경. 일반적으로 소프트웨어가 하드웨어보다 변경하기 쉽다. 추천 알고리듬은 변경하기도 쉽고 변경한 것을 평가하기도 쉽다.

대부분의 중요한 온라인 서비스는 종합 대조 실험에 기반한 민첩한 개발 프로세스를 실행하는 데 필요한 구성 요소를 충족하거나 충족시킬 수 있습니다. 소프트웨어+서비스의 많은 구현도 비교적 쉽게 요구사항을 충족할 수 있죠.

핵심은 종합 대조 실험이 실행될 수 있다면 그것들은 변화를 평가하기 위한 가장 신뢰할 수 있고 민감한 메커니즘을 제공한다는 것입니다.

 

원칙

온라인 제어 실험을 실행하려는 조직에게 도움이 되는 세 가지 핵심 원칙을 살펴보겠습니다.

원칙 1.  조직은 데이터 중심 결정을 내리고 OEC를 공식화한다.

데이터 중심적이 되려면 조직은 비교적 짧은 기간에 걸쳐 쉽게 측정할 수 있는 OEC를 정의해야 합니다. 대규모 조직에는 여러 개의 OEC 또는 주요 지표가 있을 수 있으며, 이들은 분야 간에 공유되며 분야별로 적절히 수정돼 사용됩니다. 어려운 부분은 단기간에 측정할 수 있고, 차이를 보일 정도로 민감하며, 장기 목표를 예측할 수 있는 지표를 찾아내는 것입니다. 예를 들어 단기적인 수단(예: 가격 인상)은 단기 이익을 증가시킬 수 있지만 장기적으로는 감소시킬 수 있기 때문에 "이익"은 좋은 OEC가 아닙니다. 고객생애가치는 전략적으로 강력한 OEC입니다.

궁극적으로 종합 대조 실험, 조사, 새로운 코드의 유지보수 비용 추정 등을 포함한 다양한 데이터를 기반으로 의사결정이 이뤄져야 합니다.

원칙 2. 조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 테스트에 기꺼이 투자할 용의가 있다.

온라인 소프트웨어 영역에서는 소프트 엔지니어링을 통해 종합 대조 실험에 필요한 조건을 충족할 수 있습니다. 즉 사용자를 안정적으로 랜덤화할 수 있으며 원격 측정도 가능하고 새로운 기능과 같은 소프트웨어 변경사항을 도입하기가 매우 쉽습니다. 종합 대조 실험은 애자일 소프트웨어 개발, 고객 개발 프로세스, MVP와 결합할 때 특히 유용합니다.

원칙 3. 조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다.

많은 곳에서 대부분의 아이디어는 핵심 지표를 개선하는 데 실패합니다. 빙이나 구글과 같이 최적화된 도메인에서는 성공률이 약 10~20%로 더 낮습니다. 슬랙의 제품 및 라이프사이클 담당 이사인 파리드 모사밧은 "실험을 주도하는 팀에 있다면 최소한 70% 이상의 작업이 버려지는 것에 익숙해져야 하고, 이에 따라 프로세스를 구축해야 한다."고 말했습니다.

모든 도메인이 그런 열악한 통계를 갖고 있는 것은 아니지만, 고객 대면 웹사이트와 애플리케이션에서 종합 대조 실험을 실행한 대부분의 사람들은 이런 현실을 경험했습니다. 즉 우리는 아이디어의 가치를 평가하는 데 서툴다는 것이죠.

 

시간에 따른 개선

실제로 주요 지표의 개선은 0.1%~2%의 수많은 작은 변화로 달성됩니다. 대부분의 실험은 사용자들 일부에게만 영향을 미치기 때문에 10%의 사용자에게 5%의 개선을 했다면 그 영향은 희석되며, 따라서 전체 사용자 관점에서 그 영향은 훨씬 적습니다. 관련한 사례들을 살펴볼까요?

구글 광고 사례

2011년, 구글은 1년 이상의 점진적 개발 실험을 거쳐 향상된 광고 순위 매커니즘을 출시했습니다. 엔지니어들은 광고 경매 자체에 대한 변화뿐만 아니라 기존 광고 순위 매커니즘 내에서 광고의 품질 점수를 측정할 수 있는 새롭고 개선된 모델을 개발하고 실험했습니다. 이러한 대규모 백엔드 변화와 종합 대조 실험은 궁극적으로 어떻게 다양한 변화에 대한 계획과 계층화가 고품질의 광고를 제공함으로써 사용자의 경험을 개선하고, 동시에 이러한 고품질 광고를 제공하는 평균 가격을 낮춰 광고주의 경험도 개선하는지를 보여주었습니다.

빙의 관련성 팀 사례

빙의 관련성 팀은 단일 OEC 측정지표를 매년 2%씩 개선하는 임무를 맡은 수백 명의 사람들로 구성돼 있습니다. 2%는 연간 사용자에게 실행되는 모든 대조 실험에서의 실험 효과의 합계입니다. 그 팀은 수천 개의 실험을 진행하며, 그중 일부는 우연히 긍정적으로 보일 수 있기 때문에 2%에 대한 공헌도는 반복 실험을 기반으로 부여됩니다. 여러 번의 반복 시행과 조정 후에 아이디어가 성공적으로 구현되면 인증 시험이 단일 실험군에 대해 실행되는데, 이 인증 시험의 실험군 효과가 2% 목표에 대한 공헌도를 결정합니다. 

 

흥미로운 온라인 종합 대조 실험 사례

기대 결과와 실제 결과의 절대적 차이가 큰 실험은 흥미롭습니다. 만약 어떤 일이 일어날 것이라고 생각했지만 일어나지 않았다면, 중요한 것을 배운 것이죠! 그리고 사소한 일이 일어날 것이라고 생각했고 그 결과가 커다란 돌파구로 이어진다면, 매우 가치 있는 것을 배운 것이라고 할 수 있습니다. 몇 가지 재미있는 사례들을 살펴볼까요?

사용자 인터페이스 예: 41개 색조의 파란색

2009년 구글은 구글 검색 결과 페이지에 대해 41개 색조의 파란색을 테스트했는데, 당시 시각 디자이너들을 불편하게 만들었습니다. 하지만 색상 수정 후 사용자 참여에 상당히 긍정적인 결과를 가져왔고 결국 디자인과 실험의 강력한 파트너십을 이끌어냈습니다. 빙의 생삭 조정도 이와 비슷하게 성공적인 결과를 가져왔고, 매출이 연간 천만달러 이상으로 향상되었다고 하네요.

올바른 시점에 제안하기

예시 화면(이미지 출처: https://www.clien.net/service/board/kin/8842293)

2004년 아마존은 자사 신용카드 사용 제안을 홈페이지에 올렸는데, 수익성은 좋았지만 클릭률이 매우 낮았죠. 그래서 연구 팀은 아이템이 담겨 있는 사용자의 장바구니 페이지에서 아마존 카드를 사용했을 경우 절감되는 금액을 수학 공식으로 부각되게 했습니다. 장바구니에 아이템을 담은 사용자들은 구매 의도를 갖고 있기 때문에 적절한 시점에 표시되는 것이라고 할 수 있죠. 그리고 이러한 단순한 변화가 아마존의 연간 수입을 수천만 달러 증가시켰다고 합니다.

개인화 추천

아마존의 그렉 린덴은 사용자의 쇼핑 카트에 있는 아이템을 기반으로 개인화된 추천을 보여주는 프로토타입을 만들었습니다. 마케팅 수석 부사장이 이 일을 진행하는 것을 금지했음에도 그렉은 대조 실험은 했고, 새로운 기능의 성과가 너무 좋아서 긴급히 쇼핑 카트 아이템 기반 추천 기능이 도입됐습니다. 이제는 아마존뿐만 아니라 여러 서비스에서 쇼핑카트 아이템 기반 추천을 사용하고 있죠.

속도는 "매우" 중요하다.

2012년 마이크로소프트 빙의 엔지니어가 자바스크립트 생성 방식을 변경해 클라이언트로 전송되는 HTML의 길이를 크게 줄여 성능을 향상시켰습니다. 종합 대조 실험에 이어 후석 실험도 실시한 결과 성능 개선은 성공률과 성공 시간과 같은 주요 사용자 지표를 많이 개선하며, 매 10밀리초의 성능 개선(눈 깜박임 속도의 1/30)은 엔지니어의 1년 연봉에 상응하는 수익을 초과창출했다고 합니다.

2015년 빙의 성능 향상이 여전히 가치 있는지 후속 연구를 실시했고 주요 사용자 지표는 꾸준히 개선되었습니다. 빙의 수익은 계속 개선되고 있었고, 매 밀리초마다 개선된 성능의 가치가 과거보다 더 높았습니다. 무려 매 4밀리초 감소마다 한 엔지니어의 연봉이 이익으로 발생했다고 하네요...! 좋겠다 ;)

악성코드 감소

사용자들이 설치한 '프리웨어'는 종종 광고로 페이지를 오염시키는 악성코드를 포함하고 있습니다. 이 때문에 빙 페이지의 광고가 제거됨으로써 마이크로소프트의 수입이 줄어들었고, 저품질 광고와 관련 없는 광고가 자주 게시돼 사용자들에게 나쁜 사용자 경험을 제공했습니다. 그래서 마이크로소프트는 380만 명의 사용자에게 종합 대조 실험을 실행했는데, 여기서 DOM 수정 기본 루틴은 신뢰할 수 있는 소스로부터의 제한된 수정만 허용되도록 재정의됐습니다. 그 결과 빙의 모든 핵심 지표가 개선돼 사용자들이 더 자주 방문하거나 혼란스러움을 덜 느끼는 것으로 나타났고, 연간 수익은 수백만 달러 증가했다고 합니다.

백엔드 변화

2004년에 두 가지 세트를 기반으로 하는 추천 알고리듬이 이미 존재했습니다. 아마존 추천의 대표 기능은 "X 품목을 산 사람은 Y 품목을 산다"였지만, 이는 "X 품목을 본 사람은 Y 품목을 산다"와 "X 품목을 본 사람은 Y 품목을 본다"로 일반화됐습니다. 동일한 알고리듬을 "X를 검색한 사람은 Y 품목을 산다"에 대해 사용할 것이 제안됐습니다.

새로운 알고리듬은 아주 좋은 결과를 냈는데요! 기존에는 드라마 관련 제품 검색을 위해 "24"를 검색해도 24인치 모니터 같은 검색 결과를 보여줬지만, 새로운 알고리듬은 "24"를 검색한 사람들이 실제로 구매한 품목을 기반으로 드라마 "24"에 대한 DVD나 책을 보여줬습니다. 결국 아마존은 이 변화를 통해 전체 매출 3%, 수억불에 해당하는 금액을 증가시켰다고 합니다.

 

전략, 전술과 이들의 실험과의 관계

온라인 종합 대조 실험의 실행에 필요한 요소들이 충족되면 '전략'에서 '전술'에 이르기까지 모든 수준의 조직 결정에 정보를 주도록 실험이 수행돼야 합니다. 전략과 종합 대조 실험은 시너지 효과를 내기 때문입니다.

적절한 지표를 사용해 잘 실행된 실험은 비즈니스 전략, 제품 설계를 보완하고, 조직의 데이터 중심화를 통해 운영 효율성을 개선합니다. 전략을 OEC에 요약하는 것으로 전략에 대한 훌륭한 피드백 루프를 제공할 수 있습니다. 

두 가지 주요 시나리오를 같이 검토해 볼까요?

 

시나리오 1: 비즈니스 전략이 있고, 실험할 수 있는 충분한 사용자가 있는 제품이 있는 상황

이 시나리오에서 '실험'은 현재 전략과 제품에 기초해 국지적 최적화를 달성하는 데 도움이 될 수 있고, '전략'을 갖는 것은 실행 중인 실험에 매우 중요합니다. 전략은 OEC의 선택을 주도하는 것인데, 일단 OEC가 정의되고 나면 종합 대조 실험은 팀이 OEC를 최적화하고 개선할 수 있도록 함으로써 혁신을 가속화하는 데 도움이 됩니다.

회사에는 어떻게 하면 실험을 제대로 실행할 수 있는가에 초점을 맞추는 팀도 있지만 지표 선택, 지표 검증 및 시간에 따른 지표 개선에 초점을 맞추는 팀도 있습니다. 이 전략을 OEC에 연결하면 '전략 무결성'이라는 개념이 생성됩니다. 이는 이해관계가 일치되고, 어떻게 수행하는지를 아는 조직에 의해 올바른 전략이 실행되는 것으로, 하향식 관점과 상향식 과제를 매칭하는 것입니다.

 

좋은 OEC가 없다면 자원을 낭비하고 있는 것이라고 할 수 있습니다. 예를 들어 침몰하는 유람선에서 음식이나 조명을 개선하기 위한 실험들에서 OEC의 승객 안전 변수의 가중치는 매우 높아야 합니다. OEC의 높은 가중치를 통해 승객 안전을 가드레일 지표로 사용함으로써 반영할 수 있습니다.

전략은 "트레이드오프인 무엇을 하지 않을지의 선택 역시 요구하기 때문에", 실험을 위한 가드레일 지표를 정의하는 것은 조직이 무엇을 변화시키려 하지 않는지를 식별하기 위해 중요합니다. 예를 들어, 1972년 이스턴 항공기 401은 승무원이 불탄 착륙장치 표시등에 초점을 맞추다 실수로 자동 조종장치가 해제된 것을 알아차리지 못해 추락했습니다. 그렇게 주요 가드레일 지표인 고도는 점차 낮아졌고, 결국 비행기 추락과 101명의 사망자가 발생한 것입니다.

 

시나리오 2: 제품과 전략을 갖고 있으나 결과는 방향 전환을 검토할 필요가 있다는 것을 제시하는 상황

시나리오 1에서 종합 대조 실험은 언덕 등반을 위한 훌륭한 도구입니다. 하지만 종종 변화 속도에 대한 내부 데이터나 성장률 또는 기타 벤치마크에 대한 외부 데이터에 기초해 방향 전환을 고려할 필요가 있습니다.  즉, 더 큰 언덕에 있을 수 있는 공간의 다른 위치로 점프하거나 전략과 OEC를 변경할 필요가 있다는 것이죠.

이럴 땐 보통 아이디어 포트폴리오를 만들 것을 권고합니다. 점프가 더 큰 언덕으로 이어지는지를 보기 위해 몇 가지 급진적인 아이디어들이 시도되어야 합니다. 급진적인 아이디어를 테스트할 때, 실험을 실행하고 평가하는 방법은 바뀌는데요. 특히 실험 기간과 테스트한 아이디어의 수를 고려해야 합니다. 이러한 시나리오에서는 구글 광고 품질 예제에 사용된 국가 수준의 실험과 같은 더 장기의 대규모 실험 또는 대체 설계가 필요할 수 있고, 실험을 더 많이 할수록 쌓이는 사용가능한 데이터를 바탕으로 미래지향적인 결정을 내려야 합니다.

 

종합 대조 실험을 실행할 수 있는 능력은 MVP(최소 기능 제품)을 시도하고, 데이터를 얻고, 반복함으로써 불확실성을 줄일 수 있게 해 줍니다. 그렇긴 해도 모든 사람이 새로운 전략을 테스트하는 데 투자할 수 있는 시간으로 몇 년을 가질 수는 없기 때문에, 이런 경우엔 불확실성하에서 결정을 내려야 할 수도 있습니다.

여기서 더글라스 허버드가 제안한 '정보의 기대가치(EVI)'라는 개념을 기억해 놓으면 유용한데요! 이는 추가 정보가 의사결정에 어떻게 도움될 수 있는지를 포착하는데, 종합 대조 실험을 실행할 수 있는 능력은 MVP의 시도, 데이터 수집 및 반복을 통해 불확실성을 현저하게 줄일 수 있습니다.


추가 사례 - Netflix 랜딩 페이지

넷플릭스는 제품 개선 방향을 AB 테스트에 의존하고 있는 기업이라고 합니다. 이번는 랜딩 페이지 사례를 살펴보겠습니다.

이미지 출처:https://goodui.org/leaks/netflix-a-b-tested-these-4-button-labels-with-join-now-possibly-leading/

CTA(Click to Action) 버튼 카피 수정 테스트는 아주 작은 수정이지만 큰 영향을 끼치기도 합니다. 넷플릭스는 랜딩 페이지 상단 중앙에 가입 단계로 이어지는 CTA 버튼 하나를 놓고 여러 카피를 실험한 것이 관찰되었습니다. 'JOIN NETFLIX', 'JOIN NOW', 'GET NETFLIX', 'TRY IT NOW' 등이 테스트되었습니다(다변수 테스트).

 

접두사 'TRY'는 'JOIN', 'GET'에 비해서 심리적으로 가볍게 클릭해 볼만한 카피로, 다른 카피들에 비교해 성과가 좋았을 것으로 추정됩니다. 실제로 여러 카피들 중 'TRY'가 살아남았습니다. 한국어 사이트 기준으로는 '가입하기'보다 '시작하기'였을 때 성과가 더 좋았던 겁니다.

 

이미지 출처:https://goodui.org/leaks/netflix-a-b-tests-displaying-a-password-field-which-fails-and-gets-rejected/

지금은 'TRY IT NOW' 버튼 옆에 이메일 주소 입력란이 있습니다. 이 테스트가 이상하게 보일 수도 있지만, 전체 퍼널 단계 수를 줄인 테스트입니다. 기존에는 가입 버튼을 누르면 아무 사전 정보 없이 이메일 주소 입력란을 마주치게 해 당황스럽게 했다면, 이 단계를 맨 앞으로 가져옴으로써 가입할 때 이메일 정보가 필요하다는 것을 처음부터 보여주는 방식으로 해소를 했습니다.

 

하지만 전체 퍼널의 단계 수를 줄인다고 한 화면에 많은 입력란을 두는 것이 좋은 선택인 것은 아닌데요! 실제로 성과가 좋지 않았는지 처음부터 이메일 주소와 비밀번호를 입력하라고 했던 대안은 실패하고 현재는 이메일 주소 입력란만 남게 되었습니다.

 

자료 출처: https://yozm.wishket.com/magazine/detail/897/

위 글에 넷플릭스 외에도 여러 AB 테스트 사례가 소개되어 있으니 둘러보시면 좋을 것 같습니다 :)


AB테스트 블로깅은 마지막에 퀴즈를 하나씩 올릴 건데요! 첫 번째 퀴즈 나갑니다 ✿˘◡˘✿

 

Q. AB테스트에 관한 것 중 틀린 것을 고르세요.

① 위 넷플릭스의 전체 퍼널 단계 수를 줄인 테스트에서 대조군은 가입 버튼과 이메일 주소 입력란이 있는 기존 화면이고 실험군은 가입 버튼, 이메일 주소 입력란 옆에 비밀번호 입력란을 추가한 화면이다.

② 아이디어의 가치는 평가하기 쉽다.

③ 작은 변화도 큰 영향을 줄 수 있다.

④ 조직은 데이터 중심 결정을 내리고 전체 평가 기준(OEC)를 공식화해야 한다.

 

 

답(드래그): ② 아이디어의 가치는 평가하기 어렵기 때문에, 조직은 이 사실을 인지하고 있어야 합니다.

댓글