-
[리니지 이탈 예측 모형 개발] 데이터 탐색ML.DL 2023. 9. 18. 18:49
1. 대회 주제
리니지 유저 활동 데이터를 활용하여 잔존 가치를 고려한 이탈 예측 모형 개발
2. 분석 대상
- 리니지
- 1998년 9월 1일부터 엔씨소프트에서 서비스 중인 MMORPG
- 2016년 기준 누적 매출 3조 2천 억, 전 세계 누적 이용자 수 2천만 명
- 리니지의 특징
- 높은 자유도에 기반하여 현실과 유사한 다양한 활동 가능
- 성장 및 경제 활동: 퀘스트, 레벨업, 사냥, 낚시, 물물교환 및 상업 활동
- 사회 활동: 친구, 혈맹, 파티, 결혼, 전투, 채팅
- 그 외 유저 스스로 상호 교류를 통해 다양한 콘텐츠 생성
- 높은 자유도에 기반하여 현실과 유사한 다양한 활동 가능
3. 문제의 목적 및 목표
- 이탈 예측 분석
- 이탈 징후를 보이는 고객을 사전에 선별 -> 인센티브 제공을 통해 잔존 유도
- 시간의 변화에 강건한 모델 구축
- 학습 데이터와 시점이 다른 두 개의 테스트 데이터 제공
- 고객의 기대 이익을 고려한 모델 구축
- 고객별 예상 매출과 이탈 시기를 예측하고 이를 이용한 이탈 방지 정책 적용 시 예상되는 기대 이익 평가
- 기대 이익=전환율*(추가 생존 기간*단위 기간당 예상 매출)-이탈 방지 비용
4. 데이터 구성
https://danbi-ncsoft.github.io//OpenData/
Open Data
danbi-ncsoft.github.io
- 예측 시점에서 과거 28일 간의 활동 데이터를 이용하여 모델 학습
- 예측 시점 이후 70일 간의 관측을 통해 집계된 실제 고객별 이탈 시점(생존 기간) 및 평균 결제 금액 예측
- 64일 동안 이탈하지 않은 유저는 잔존으로 처리(이탈 여부 판단 기간 7일 감안)
- 예측 시점 이후 발생한 고객별 총 결제 금액을 활동 일수로 나눠 일 평균 결제 금액 집계
- 학습 및 평가 데이터 구성 방식 및 규모
- Train 데이터: 4만 계정
- Test 데이터 1&2: 각각 2만 계정
- 데이터의 종류별 CSV 파일 제공 (총 16종)
- 예측 대상은 유저 아이디 기준
- 피처 데이터는 유저 아이디 기준과 캐릭터 아이디 기준이 혼재되어 있음
- 하나의 유저는 다수의 캐릭터 보유 가능
- 레이블 데이터: train_label.csv
- 각 유저의 생존 기간과 일별 평균 결제 금액 제공
- 생존기간은 1~64의 값을 가지며, 64는 잔존을 의미함
- 기본 활동 데이터: train_activity.csv, test1_activity.csv, test2_activity.csv
- 각 캐릭터의 일일 주요 활동 집계
- 거래 데이터: train_trade.csv, test1_trade.csv, test2_trade.csv
- 캐릭터 간 일별 거래(교환, 개인 상점) 이력
- 전투(PvP) 데이터: train_combat.csv, test1_combat.csv, test2_combat.csv
- 캐릭터 전투 활동 일일 집계
- 혈맹 데이터: train_pledge.csv, test1_pledge.csv, test2_pledge.csv
- 캐릭터 소속 혈맹 구성원들의 전투 정보 일일 집계
- 결제 데이터: train_payment.csv, test1_payment.csv, test2_payment.csv
- 각 유저의 일별 결제 금액
5. 데이터 정제
- 사용 툴: 코랩 / 파이썬
- 정제 계획
- 5개의 데이터 셋에서 각 acc_id별로 시계열 컬럼을 생성한다.
- 한 유저가 여러 개의 char_id를 가질 수 있음을 고려해서 acc_id별로 모든 캐릭터의 데이터를 합산한다.
'ML.DL' 카테고리의 다른 글
[B&S 유저들의 이탈 시점 예측] 데이터의 이해 (0) 2023.10.06 [리니지 이탈 예측 모형 개발] 데이터 탐색 및 시각화 (0) 2023.09.25 [DL 경진대회] 항공 사진 내 선인장 식별(2) (0) 2023.01.30 [DL 경진대회] 항공 사진 내 선인장 식별(1) (2) 2023.01.30 [ML 경진대회] 향후 판매량 예측-성능 개선 (2) 2022.11.28 - 리니지