본문 바로가기
ML.DL

[리니지 이탈 예측 모형 개발] 데이터 탐색

by 권미정 2023. 9. 18.

1. 대회 주제

리니지 유저 활동 데이터를 활용하여 잔존 가치를 고려한 이탈 예측 모형 개발

 

2. 분석 대상

  • 리니지
    • 1998년 9월 1일부터 엔씨소프트에서 서비스 중인 MMORPG
    • 2016년 기준 누적 매출 3조 2천 억, 전 세계 누적 이용자 수 2천만 명
  • 리니지의 특징
    • 높은 자유도에 기반하여 현실과 유사한 다양한 활동 가능
      • 성장 및 경제 활동: 퀘스트, 레벨업, 사냥, 낚시, 물물교환 및 상업 활동
      • 사회 활동: 친구, 혈맹, 파티, 결혼, 전투, 채팅
      • 그 외 유저 스스로 상호 교류를 통해 다양한 콘텐츠 생성

 

3. 문제의 목적 및 목표

  • 이탈 예측 분석
    • 이탈 징후를 보이는 고객을 사전에 선별 -> 인센티브 제공을 통해 잔존 유도
  • 시간의 변화에 강건한 모델 구축
    • 학습 데이터와 시점이 다른 두 개의 테스트 데이터 제공
  • 고객의 기대 이익을 고려한 모델 구축
    • 고객별 예상 매출이탈 시기를 예측하고 이를 이용한 이탈 방지 정책 적용 시 예상되는 기대 이익 평가
    • 기대 이익=전환율*(추가 생존 기간*단위 기간당 예상 매출)-이탈 방지 비용

 

4. 데이터 구성

https://danbi-ncsoft.github.io//OpenData/ 

 

Open Data

 

danbi-ncsoft.github.io

  • 예측 시점에서 과거 28일 간의 활동 데이터를 이용하여 모델 학습
  • 예측 시점 이후 70일 간의 관측을 통해 집계된 실제 고객별 이탈 시점(생존 기간) 및 평균 결제 금액 예측
    • 64일 동안 이탈하지 않은 유저는 잔존으로 처리(이탈 여부 판단 기간 7일 감안)
    • 예측 시점 이후 발생한 고객별 총 결제 금액을 활동 일수로 나눠 일 평균 결제 금액 집계 

  • 학습 및 평가 데이터 구성 방식 및 규모
    • Train 데이터: 4만 계정
    • Test 데이터 1&2: 각각 2만 계정

 

  • 데이터의 종류별 CSV 파일 제공 (총 16종)
    • 예측 대상은 유저 아이디 기준
    • 피처 데이터는 유저 아이디 기준과 캐릭터 아이디 기준이 혼재되어 있음
    • 하나의 유저는 다수의 캐릭터 보유 가능

 

  • 레이블 데이터: train_label.csv
    • 각 유저의 생존 기간과 일별 평균 결제 금액 제공
    • 생존기간은 1~64의 값을 가지며, 64는 잔존을 의미함

 

  • 기본 활동 데이터: train_activity.csv, test1_activity.csv, test2_activity.csv
    • 각 캐릭터의 일일 주요 활동 집계

 

  • 거래 데이터: train_trade.csv, test1_trade.csv, test2_trade.csv
    • 캐릭터 간 일별 거래(교환, 개인 상점) 이력

 

  • 전투(PvP) 데이터: train_combat.csv, test1_combat.csv, test2_combat.csv
    • 캐릭터 전투 활동 일일 집계

 

  • 혈맹 데이터: train_pledge.csv, test1_pledge.csv, test2_pledge.csv
    • 캐릭터 소속 혈맹 구성원들의 전투 정보 일일 집계

 

  • 결제 데이터: train_payment.csv, test1_payment.csv, test2_payment.csv
    • 각 유저의 일별 결제 금액

 

5. 데이터 정제

  • 사용 툴: 코랩 / 파이썬
  • 정제 계획
    • 5개의 데이터 셋에서 각 acc_id별로 시계열 컬럼을 생성한다.
    • 한 유저가 여러 개의 char_id를 가질 수 있음을 고려해서 acc_id별로 모든 캐릭터의 데이터를 합산한다.

 

댓글