본문 바로가기

머신러닝2

[ML경진대회] 안전 운전자 예측-성능 개선(1) 8장을 참고해 실습한 내용입니다. 저번 글에서는 '범주형 데이터 이진분류' 경진대회에 참가해서 탐색적 데이터 분석을 하는 글을 블로깅했었는데요. 이번에는 "Porto Seguro's Safe Driver Prediction" 경진대회에 참가해서 탐색적 데이터 분석의 다음 단계를 진행했습니다. 앞 단계에서 선별한 피처들을 제거해 베이스라인 모델을 만들고, 성능 개선을 실습하여 블로깅해 보겠습니다! 1. 베이스라인 모델 베이스라인 모델로 파이썬 래퍼 LightGBM을 사용할 건데요. LightGBM은 마이크로소프트가 개발한 모델로, 빠르면서 성능이 좋아 캐글에서 가장 많이 사용하는 머신러닝 모델입니다. 먼저 훈련, 테스트, 제출 샘플 데이터를 불러오겠습니다. import pandas as pd #데이터 경로.. 2022. 11. 21.
[머신러닝 딥러닝 문제해결 전략] 문제해결 프로세스 및 체크리스트 3장 정리 3장의 목표는 머신러닝과 딥러닝, 두 가지 성격의 대회를 정복하는 일반적인 프로세스를 알아보고, 프로세스의 각 단계에서 확인해야 할 체크리스트를 정리하는 것이다. 머신러닝 프로세스와 체크리스트는 이 책의 2부 대회에서, 딥러닝 프로세스와 체크리스트는 3부 대회에서 활용할 수 있다. 이 책 전반에서 반복 숙달할 것이기 때문에, 지금은 전체적인 흐름을 기억해두면 좋을 것이다! 1. 머신러닝 문제해결 프로세스 대회에 따라 세부 내용은 조금씩 다를 수 있지만 큰 흐름과 구조는 대부분 비슷하다. 표로 정리해보자! ① 문제(경진대회) 이해 문제 이해 경진대회의 배경과 목적을 이해해야 한다. 어떤 데이터를 활용해서 어떤 값을 예측해야 하는지, 회귀 문제인지 분류 문제인지, 어떻게 접근해야 하는지 등 다양한.. 2022. 9. 12.