본문 바로가기

ML.DL14

[ML 경진대회] 향후 판매량 예측-베이스라인 모델 9장을 실습한 내용입니다. 이제 책의 2부가 끝나가네요. 이번에 참가할 경진대회는 책의 마지막 머신러닝 경진대회인, '향후 판매량 예측' 경진대회입니다. 이번에도 데이터를 처리해 베이스라인 모델을 만들고, 성능 개선을 실습하는 글을 블로깅해 보겠습니다. 1. 베이스라인 모델 베이스라인 모델로 LightGBM을 사용합니다. 이번 베이스라인의 단계가 총 7단계나 되는데요! 차근차근 한 단계씩 해 봅시다! 먼저 데이터를 불러오겠습니다. import numpy as np import pandas as pd import warnings warnings.filterwarnings(action='ignore') #경고 문구 생략 #데이터 경로 data_path = '/kaggle/input/competitive-da.. 2022. 11. 27.
[ML경진대회] 안전 운전자 예측-성능 개선(2) 8장을 참고해 실습한 내용입니다. 지난 글에서는 "Porto Seguro's Safe Driver Prediction(안전 운전자 예측)" 경진대회에 참가해서 베이스라인 모델을 만들고, 성능 개선 1: LightGBM모델을 실습하여 블로깅했었습니다. 이번에는 성능 개선 2번째 XGBoost모델부터, 마지막 앙상블까지 진행해 보겠습니다. 3. 성능 개선 2: XGBoost 모델 이번에는 모델만 XGBoost로 바꿔 보겠습니다. XGBoost는 성능이 우수한 트리 기반 부스팅 알고리즘으로, 결정 트리를 병렬로 배치하는 랜덤 포레스트와 달리 직렬로 배치해 사용합니다. XGBoost 기반으로 바꾸려면 지니계수 반환값, 데이터셋 객체, 모델 하이퍼파라미터명을 수정해야 합니다. 3.1 피처 엔지니어링 피처 엔지니어.. 2022. 11. 25.
[ML경진대회] 안전 운전자 예측-성능 개선(1) 8장을 참고해 실습한 내용입니다. 저번 글에서는 '범주형 데이터 이진분류' 경진대회에 참가해서 탐색적 데이터 분석을 하는 글을 블로깅했었는데요. 이번에는 "Porto Seguro's Safe Driver Prediction" 경진대회에 참가해서 탐색적 데이터 분석의 다음 단계를 진행했습니다. 앞 단계에서 선별한 피처들을 제거해 베이스라인 모델을 만들고, 성능 개선을 실습하여 블로깅해 보겠습니다! 1. 베이스라인 모델 베이스라인 모델로 파이썬 래퍼 LightGBM을 사용할 건데요. LightGBM은 마이크로소프트가 개발한 모델로, 빠르면서 성능이 좋아 캐글에서 가장 많이 사용하는 머신러닝 모델입니다. 먼저 훈련, 테스트, 제출 샘플 데이터를 불러오겠습니다. import pandas as pd #데이터 경로.. 2022. 11. 21.
[ML경진대회] 범주형 데이터 이진분류-탐색적 데이터 분석(2) 책 7장을 실습한 내용입니다. 지난 실습에 이어서, 이번에는 데이터를 시각화하여 어떤 피처가 중요하고 어떤 고윳값이 타깃값에 영향을 많이 주는지 알아보자! 2-2. 데이터 시각화 먼저 시각화 라이브러리를 불러오고, 그래프를 그려보자. import seaborn as sns import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline ① 타깃값 분포 분포도 중 하나인 카운트플롯으로 타깃값 0과 1의 개수를 파악하자. 카운트플롯은 범주형 데이터의 개수를 확인할 때 주로 사용한다. mpl.rc('font', size=15) #폰트 크기 설정 plt.figure(figsize=(7,6)) #Figure 크기 설정 #타깃값 분포 카운트플롯.. 2022. 10. 2.