Kaggle의 대표적인 문제 중 하나인 타이타닉 생존자 예측을 하는 모델을 구현하기로 한다.
데이터는 https://bit.ly/fc-ml-titanic에서 다운받을 수 있다.
https://github.com/JHWannabe/TIL/blob/main/20230113/titanic_disaster.ipynb
GitHub - JHWannabe/TIL
Contribute to JHWannabe/TIL development by creating an account on GitHub.
github.com
- PassengerId : 승객 아이디
- Survived : 생존 여부(1:생존, 0:사망)
- Pclass : 등급
- Name : 승객 이름
- Sex : 성별
- Age : 나이
- SibSp : 형제, 자매, 배우자 수
- Parch : 부모, 자식 수
- Ticket : 티켓 번호
- Fare : 요금
- Cabin : 좌석 번호
- Embarked : 탑승 항구

Column 수가 많아, 다 사용하기에는 용량적인 문제나 필요하지 않은 내용이 있기 때문에 필요한 Column만 선택하여 다시 만들었다.

train dataset을 살펴보니, Age Column에 177개의 Null 값이 있는 것을 확인할 수 있다. 결측치를 처리하는 방법에는 0으로 채우는 방법과, 평균으로 채우는 방법 이외에도 많은 방법이 있다. 여기에서는 평균으로 결측치를 처리하였다.
Impute를 사용하여 여러 개의 Column을 한 번에 제어할 수 있다.
Numerical Column이 아닌 Categorical Column에 대해서도 적용이 가능하다.
728x90
반응형
'AI 입문 > Kaggle | DACON' 카테고리의 다른 글
[모각소] 4 OCR 손글씨 인식 프로젝트 (0) | 2023.02.10 |
---|---|
[모각소] 3 DACON 서울시 따릉이 대여량 예측 경진대회 (0) | 2023.01.27 |
[모각소] 2 Titanic - Model 개발 (0) | 2023.01.20 |