본문 바로가기

머신러닝경진대회5

[ML 경진대회] 향후 판매량 예측-성능 개선 9장을 실습한 내용입니다. 이전 글에서 베이스라인 모델을 생성했으니, 이제 베이스라인 모델의 성능을 개선해 보겠습니다. 2. 성능 개선 베이스라인 모델은 똑같이 LightGBM입니다. 이번 경진대회에서는 피처 엔지니어링할 요소가 많은데, 총 6단계를 진행합니다. 먼저 데이터를 불러오겠습니다. import numpy as np import pandas as pd import warnings warnings.filterwarnings(action='ignore') #경고 메시지 생략 #데이터 경로 data_path = '/kaggle/input/competitive-data-science-predict-future-sales/' sales_train = pd.read_csv(data_path + 'sales.. 2022. 11. 28.
[ML 경진대회] 향후 판매량 예측-베이스라인 모델 9장을 실습한 내용입니다. 이제 책의 2부가 끝나가네요. 이번에 참가할 경진대회는 책의 마지막 머신러닝 경진대회인, '향후 판매량 예측' 경진대회입니다. 이번에도 데이터를 처리해 베이스라인 모델을 만들고, 성능 개선을 실습하는 글을 블로깅해 보겠습니다. 1. 베이스라인 모델 베이스라인 모델로 LightGBM을 사용합니다. 이번 베이스라인의 단계가 총 7단계나 되는데요! 차근차근 한 단계씩 해 봅시다! 먼저 데이터를 불러오겠습니다. import numpy as np import pandas as pd import warnings warnings.filterwarnings(action='ignore') #경고 문구 생략 #데이터 경로 data_path = '/kaggle/input/competitive-da.. 2022. 11. 27.
[ML경진대회] 안전 운전자 예측-성능 개선(2) 8장을 참고해 실습한 내용입니다. 지난 글에서는 "Porto Seguro's Safe Driver Prediction(안전 운전자 예측)" 경진대회에 참가해서 베이스라인 모델을 만들고, 성능 개선 1: LightGBM모델을 실습하여 블로깅했었습니다. 이번에는 성능 개선 2번째 XGBoost모델부터, 마지막 앙상블까지 진행해 보겠습니다. 3. 성능 개선 2: XGBoost 모델 이번에는 모델만 XGBoost로 바꿔 보겠습니다. XGBoost는 성능이 우수한 트리 기반 부스팅 알고리즘으로, 결정 트리를 병렬로 배치하는 랜덤 포레스트와 달리 직렬로 배치해 사용합니다. XGBoost 기반으로 바꾸려면 지니계수 반환값, 데이터셋 객체, 모델 하이퍼파라미터명을 수정해야 합니다. 3.1 피처 엔지니어링 피처 엔지니어.. 2022. 11. 25.
[ML경진대회] 안전 운전자 예측-성능 개선(1) 8장을 참고해 실습한 내용입니다. 저번 글에서는 '범주형 데이터 이진분류' 경진대회에 참가해서 탐색적 데이터 분석을 하는 글을 블로깅했었는데요. 이번에는 "Porto Seguro's Safe Driver Prediction" 경진대회에 참가해서 탐색적 데이터 분석의 다음 단계를 진행했습니다. 앞 단계에서 선별한 피처들을 제거해 베이스라인 모델을 만들고, 성능 개선을 실습하여 블로깅해 보겠습니다! 1. 베이스라인 모델 베이스라인 모델로 파이썬 래퍼 LightGBM을 사용할 건데요. LightGBM은 마이크로소프트가 개발한 모델로, 빠르면서 성능이 좋아 캐글에서 가장 많이 사용하는 머신러닝 모델입니다. 먼저 훈련, 테스트, 제출 샘플 데이터를 불러오겠습니다. import pandas as pd #데이터 경로.. 2022. 11. 21.