본문 바로가기

ML.DL14

[리니지 이탈 예측 모형 개발] 데이터 탐색 1. 대회 주제 리니지 유저 활동 데이터를 활용하여 잔존 가치를 고려한 이탈 예측 모형 개발 2. 분석 대상 리니지 1998년 9월 1일부터 엔씨소프트에서 서비스 중인 MMORPG 2016년 기준 누적 매출 3조 2천 억, 전 세계 누적 이용자 수 2천만 명 리니지의 특징 높은 자유도에 기반하여 현실과 유사한 다양한 활동 가능 성장 및 경제 활동: 퀘스트, 레벨업, 사냥, 낚시, 물물교환 및 상업 활동 사회 활동: 친구, 혈맹, 파티, 결혼, 전투, 채팅 그 외 유저 스스로 상호 교류를 통해 다양한 콘텐츠 생성 3. 문제의 목적 및 목표 이탈 예측 분석 이탈 징후를 보이는 고객을 사전에 선별 -> 인센티브 제공을 통해 잔존 유도 시간의 변화에 강건한 모델 구축 학습 데이터와 시점이 다른 두 개의 테스트 .. 2023. 9. 18.
[DL 경진대회] 항공 사진 내 선인장 식별(2) 11장을 실습한 내용입니다. 4. 성능 개선 지난 글에서는 간단한 CNN 모델을 사용해 베이스라인을 만들었습니다. 이번엔 다음 네 가지를 개선해서 성능을 높여 보겠습니다. 다양한 이미지 변환을 수행하기 더 깊은 CNN 모델을 만들기 더 뛰어난 옵티마이저를 사용하기 훈련 시 에폭 수를 늘리기 ① 데이터 준비 먼저, 시드값 고정부터 '데이터 준비'의 '2. 데이터셋 클래스 정의'까지는 베이스라인과 똑같이 진행합니다. 이미지 변환기 정의 이미지를 변환하여 데이터 수를 늘리는 방식을 데이터 증강이라고 하는데, 이를 해 줄 이미지 변환기를 직접 정의해 보겠습니다. 성능을 개선하기 위해 다양한 이미지 변환기를 활용할 텐데, 훈련 데이터용과 검증 및 테스트 데이터용을 따로 만듭니다. from torchvision i.. 2023. 1. 30.
[DL 경진대회] 항공 사진 내 선인장 식별(1) 11장을 실습한 내용입니다. 1. 경진대회 이해 드디어 딥러닝 경진대회에 참가합니다! 첫 번째는 데이터 크기가 작고 난이도도 낮은 플레이그라운드 대회로, 항공 사진에서 선인장을 찾아내는 것이 목표입니다. '자연보호 구역 자율 감시'를 위해 보호 구역 내에 초목이 잘 자라는지 확인하는 작업을 하는 것인데, 딥러닝 기술을 활용하면 사람이 일일이 확인하지 않아도 선인장이 얼마나 있는지 파악할 수 있겠죠? 물체 식별 대회이기 때문에 csv 파일에 더해 '이미지 파일'도 제공합니다. 훈련 이미지, 테스트 이미지 데이터(jpg 형식)은 압축 파일로 제공합니다. train.csv 파일의 타깃값은 0 또는 1인데, 0이면 해당 항공 사진에 선인장이 없다는 뜻이고, 1이면 있다는 뜻입니다. 우리는 타깃값이 1인, 테스트.. 2023. 1. 30.
[ML 경진대회] 향후 판매량 예측-성능 개선 9장을 실습한 내용입니다. 이전 글에서 베이스라인 모델을 생성했으니, 이제 베이스라인 모델의 성능을 개선해 보겠습니다. 2. 성능 개선 베이스라인 모델은 똑같이 LightGBM입니다. 이번 경진대회에서는 피처 엔지니어링할 요소가 많은데, 총 6단계를 진행합니다. 먼저 데이터를 불러오겠습니다. import numpy as np import pandas as pd import warnings warnings.filterwarnings(action='ignore') #경고 메시지 생략 #데이터 경로 data_path = '/kaggle/input/competitive-data-science-predict-future-sales/' sales_train = pd.read_csv(data_path + 'sales.. 2022. 11. 28.