본문 바로가기
ML.DL

[B&S 유저들의 이탈 시점 예측] 탐색적 데이터 분석

by 권미정 2023. 10. 29.

1. 대회 문제

주제

Blade&Soul 유저들의 게임 활동 정보를 이용하여 향후 게임 서비스에서 이탈하는 시점 예측하기

데이터 규모

  • Train 데이터: (계정 아이디 기준) 10만 명의 게임 활동 데이터
  • Test 데이터: (계정 아이디 기준) 4만 명의 게임 활동 데이터

레이블 및 이탈 기준

  • 이탈 기준: 4주 이상 게임 미접속
  • 제공 데이터 시점 이후 12주 동안의 접속 이력으로 판단
  • 레이블: 총 4개 클래스로 구분
    • Week: 1주 이내 이탈
    • Month: 2~4주 이내 이탈
    • 2Month: 5~8주 이내 이탈
    • Retained: 잔존
  • Train 데이터의 10만 명의 레이블은 클래스별로 각각 25000개씩 들어 있음.

2. 분석할 데이터

activity (활동 정보)

cnt_dt (해당 주에 접속한 일수), play.time (플레이 시간(초)) 게임 접속 일수가 많거나 플레이 시간이 길다면 꾸준히 플레이하는 유저이기 때문에 8주 이후에도 잔존해 있을 것이다.
quest.hongmun(퀘스트 홍문 경험치) 홍문은 60레벨 이후의 레벨 업 체계이기 때문에 이 경험치를 얻은 유저는 게임을 오래 즐기고 있는 유저로 파악되어 8주 이후에도 잔존할 가능성이 높다.
duel.win(결투 승리 횟수), partybattle.win(전장 승리 횟수) 승리한 횟수가 많을수록 게임에 흥미를 느껴 잔존할 가능성이 높다.
cnt.clear.inzone.normal (라이트/숙련인던 완료 횟수) 인던 완료 횟수로 게임 숙련도에 따라 이탈/잔존 예측을 해 볼 수 있을 것 같다.
cnt.clear.bam (밤의바람평야 완료 횟수) 라이트/숙련 인던보다 난이도가 높은 전설 던전으로, 이 횟수가 많은 유저는 잔존할 가능성이 높다.
party.chat (파티 채팅 횟수), guild.chat (문파 채팅 횟수) 블레이드앤소울의 주력 콘텐츠인 레이드, 인던을 플레이하기 위해서는 파티 채팅, 문파(길드) 채팅을 하는 일이 많다. 채팅 횟수가 많다면 같이 게임을 즐기는 유저들이 많다는 의미이기 때문에 잔존할 가능성이 높다.

 

payment (결제 정보)

payment_amount (해당 주 총 결제액) 과금 유저는 오래 잔존할 것이고 비과금 유저는 일찍 이탈할 것이다.

 

guild (길드 정보)

각 ID가 소속해 있는 길드의 규모(길드원 수 평균 이상/이하)에 따른 잔존 예측.

길드 ID와 그 길드에 속한 유저들의 ID 리스트가 들어 있고, 한 유저가 여러 길드에 속할 수 있어서, 어떻게 할 수 있을지 생각해야 함.

 

trade (거래 정보)

아이템을 주는 경우, 특히 짧은 기간에 많은 수량의 아이템을 판매하는 경우는 게임을 정리하기 위함일 가능성이 있다. 반대로 아이템을 받는 것은 게임을 계속 지속하기 위함일 가능성이 높을 것이다.

 

3. 탐색적 데이터 분석 & 추가 변수 생성

데이터 파일을 acc_id를 기준으로 결합했다.

제공된 데이터의 모든 통계량은 개인 정보 보호를 위해 실제값을 알 수 없도록 표준화되어 있어서, 중앙값이나 평균 중 추세를 잘 볼 수 있는 값으로 시각화를 진행하였다.

 

(1) 유저들의 최초 접속 주차

각 레이블별 유저들의 활동 데이터 8주간 최초로 접속한 주차를 주차별로 카운트해서 나타냈다.

retained 유저는 25000명 중 약 17000명이 1주차에 최초 접속한 것으로 보아, 이들 대부분은 매주 접속하는 유저들로 보인다.

이탈 유저들은 최초 접속 주차가 대부분 1~2주차 또는 8주차이다. 꾸준히 접속하던 유저들이거나 이 데이터를 수집한 8주차에 오랜만에 접속한 유저들, 또는 8주차에 처음으로 접속한 신규 유저들일 것으로 추정된다.

 

(2) 주차별 접속한 유저들의 수

retained 유저의 대부분은 거의 매주 접속했다는 것을 알 수 있다. 8주차에 접속한 인원을 레이블마다 같은 수로 데이터를 뽑아서, 이탈 유저들은 8주차 전엔 비교적 적은 유저들이 접속하다가 마지막 주엔 모든 유저가 접속한 것처럼 보인다.

 

(3) 접속한 주차 수에 따른 잔존 여부 

가설: 접속한 주차 개수가 많다면 꾸준히 플레이하는 유저이기 때문에 8주 이후에도 잔존해 있을 것이다.

레이블별 유저들이 활동 데이터 수집 기간 8주 동안 접속한 주차의 개수를 나타냈다.

이탈 유저 레이블들은 접속 주차 개수가 비슷한 분포를 보이고, 꾸준히 접속하기보다는 하나의 주차만 접속한 경우가 가장 많았다. 반대로 잔존 유저들은 8주 내내 꾸준히 접속한 경우가 가장 많았다. 가설이 증명되었다.

 

(4) 레이블별 플레이 시간

가설: 플레이 시간이 길다면 꾸준히 플레이하는 유저이기 때문에 8주 이후에도 잔존해 있을 것이다.

총 8주 동안 각 주차에 접속한 유저들의 주당 플레이시간 중앙값을 레이블별로 한눈에 비교할 수 있도록 나타냈다.

month 이탈과 2month 이탈은 비슷한 추세를 보인다. retained 유저는 8주 내내 꾸준하게 많은 플레이 시간을 보인다.

week 이탈 유저의 플레이 시간이 month와 2month보다 많아 보이는 것은 신규 유입 유저의 비율이 많기 때문이라 추정되고, 유입 초반에 많은 플레이를 하기 때문이라 생각해 볼 수 있다.

 

(5) 레이블별 홍문(60레벨 이후 레벨업) 경험치

가설: 홍문 경험치를 얻은 유저는 게임을 오래 즐기고 있는 유저로 파악되어 8주 이후에도 잔존할 것이다.

2주차는 왜 저런 양상을 보이는지 모르겠으나, 전체적으로 retained 유저의 홍문 경험치가 가장 많고 다음으로는 week-month-2month 이탈 순으로 홍문 경험치를 얻었다. 가설이 맞지 않다는 것을 확인했다.

 

(6) 레이블별 결투, 전장 승리 횟수

가설: 승리한 횟수가 많을수록 게임에 흥미를 느껴 오래 잔존할 가능성이 높을 것이다.

결투 승리 횟수와 전장 승리 횟수 모두 retained 유저가 압도적으로 많은 승리 횟수를 가지고 있다. 이탈 유저는 2month-month-week 순으로 승리 횟수가 적어진다. 승리한 횟수가 많을수록 게임에 흥미를 느껴 잔존할 가능성이 높다는 가설이 맞는 것을 확인할 수 있다.

 

(7) 레이블별 인던 완료 횟수

가설: 난이도가 높은 인던은 꾸준한 접속으로 게임 숙련도가 높은 잔존 유저들이 많이 즐길 것이다.

라이트/숙련 인던은 난이도가 비교적 낮은 던전으로, 주차 초반에는 retained 유저의 완료 횟수가 가장 많지만 5주차 이후로는 week 이탈 유저가 가장 많은 완료 횟수를 보이고 있다.

하지만 밤의 바람 평야는 난이도가 비교적 높은 던전으로, 게임 숙련도가 높은 고인물이라고 볼 수 있는 retained 유저가 가장 많은 완료 횟수를 보이고 있고 2month-month-week 순으로 추세를 보인다. 게임 숙련도에 따라 이탈 시기가 다를 것이라는 가설이 맞는 것을 확인할 수 있다.

 

(8) 레이블별 평균 파티, 길드 채팅 횟수

가설: 채팅 횟수가 많다면 같이 게임을 즐기는 유저들이 많다는 의미이기 때문에 오래 잔존할 가능성이 높다.

파티 채팅 횟수와 길드 채팅 횟수 모두 retained 유저가 압도적으로 많은 횟수를 가지고 있다. 파티 채팅 횟수의 경우 week 이탈 유저가 다른 이탈 유저들보다는 조금 높은 추세를 보이지만, 길드 채팅의 경우 week 이탈 유저가 가장 낮은 추세를 보인다. week 이탈 유저들은 길드 콘텐츠를 즐기지 않는 경우가 많다는 것을 알 수 있다. 이처럼 채팅 횟수가 많다면 같이 게임을 즐기는 유저들이 많다는 의미이기 때문에 잔존할 가능성이 높다는 것을 확인할 수 있다.

 

 

(9) 이탈/잔존 유저들의 결제금액의 분포

가설: 과금 유저는 오래 잔존할 것이고 비과금 유저는 일찍 이탈할 것이다.

결제금액은 retained 잔존 유저는 0으로 분류하고, 2month.month.week 이탈 유저들은 1로 분류해서 각각 살펴보았다.

이탈 유저들보다 잔존 유저들의 결제금액이 더 많고, 잔존 유저 중에 과금을 한 비율이 더 많다는 것을 알 수 있다. 과금 유저는 오래 잔존할 것이고 비과금 유저는 일찍 이탈할 것이라는 가설이 맞는 것을 확인할 수 있다.

 

(10) 거래를 할 때 아이템을 판매하는 유저와 구매하는 유저별로 레이블 분포

가설: 아이템을 주는 경우는 게임을 정리하기 위함일 것이고, 반대로 아이템을 받는 것은 게임을 계속 지속하기 위함일 가능성이 높을 것이다.

아이템을 주는 경우 게임을 정리하기 위함일 가능성과 아이템을 받는 것은 게임을 계속 지속하기 위함일 가능성이 높을 것이라는 가설을 증명하고자 했다. 하지만 아이템을 판매하는 경우 retained 유저가 가장 많았고 아이템을 구매하는 경우는 다양한 label이 분포되어 추세를 파악하기 어려웠다. 가설이 맞지 않음을 확인했다.

 

4. 탐색적 데이터 분석 결과

 

① 맞는 것으로 확인된 가설

접속한 주차 개수가 많다면 꾸준히 플레이하는 유저이기 때문에 8주 이후에도 잔존해 있을 것이다.
플레이 시간이 길다면 꾸준히 플레이하는 유저이기 때문에 8주 이후에도 잔존해 있을 것이다.
승리한 횟수가 많을수록 게임에 흥미를 느껴 오래 잔존할 가능성이 높을 것이다.
난이도가 높은 인던은 꾸준한 접속으로 게임 숙련도가 높은 잔존 유저들이 많이 즐길 것이다.
채팅 횟수가 많다면 같이 게임을 즐기는 유저들이 많다는 의미이기 때문에 오래 잔존할 가능성이 높다.
과금 유저는 오래 잔존할 것이고 비과금 유저는 일찍 이탈할 것이다.

 

② retained 유저는 많은 경우에서 이탈 유저들과는 확연히 다른 추세를 보였기 때문에, 분류 모델이 잘 학습할 수 있을 것으로 보인다.

이탈 레이블 3가지는 많은 변수에서 비슷한 추세를 보였지만, week 이탈 유저는 다른 이탈 유저들과는 눈에 띄는 형태를 보이는 경우가 많았다. 분류 모델이 잘 학습할 것으로 보인다.

④ month 이탈 유저와 2month 이탈 유저는 잘 분류되지 않고 비슷한 추세를 보여서, 이 두 레이블을 잘 분류할 수 있도록 모델을 학습시킬 방법을 생각해 봐야 할 것 같다.

댓글