본문 바로가기

안전운전자예측경진대회2

[ML경진대회] 안전 운전자 예측-성능 개선(2) 8장을 참고해 실습한 내용입니다. 지난 글에서는 "Porto Seguro's Safe Driver Prediction(안전 운전자 예측)" 경진대회에 참가해서 베이스라인 모델을 만들고, 성능 개선 1: LightGBM모델을 실습하여 블로깅했었습니다. 이번에는 성능 개선 2번째 XGBoost모델부터, 마지막 앙상블까지 진행해 보겠습니다. 3. 성능 개선 2: XGBoost 모델 이번에는 모델만 XGBoost로 바꿔 보겠습니다. XGBoost는 성능이 우수한 트리 기반 부스팅 알고리즘으로, 결정 트리를 병렬로 배치하는 랜덤 포레스트와 달리 직렬로 배치해 사용합니다. XGBoost 기반으로 바꾸려면 지니계수 반환값, 데이터셋 객체, 모델 하이퍼파라미터명을 수정해야 합니다. 3.1 피처 엔지니어링 피처 엔지니어.. 2022. 11. 25.
[ML경진대회] 안전 운전자 예측-성능 개선(1) 8장을 참고해 실습한 내용입니다. 저번 글에서는 '범주형 데이터 이진분류' 경진대회에 참가해서 탐색적 데이터 분석을 하는 글을 블로깅했었는데요. 이번에는 "Porto Seguro's Safe Driver Prediction" 경진대회에 참가해서 탐색적 데이터 분석의 다음 단계를 진행했습니다. 앞 단계에서 선별한 피처들을 제거해 베이스라인 모델을 만들고, 성능 개선을 실습하여 블로깅해 보겠습니다! 1. 베이스라인 모델 베이스라인 모델로 파이썬 래퍼 LightGBM을 사용할 건데요. LightGBM은 마이크로소프트가 개발한 모델로, 빠르면서 성능이 좋아 캐글에서 가장 많이 사용하는 머신러닝 모델입니다. 먼저 훈련, 테스트, 제출 샘플 데이터를 불러오겠습니다. import pandas as pd #데이터 경로.. 2022. 11. 21.