본문 바로가기
AI 입문/Kaggle | DACON

[모각소] 1 Titanic - Data 분석

by jhwannabe 2023. 1. 20.

Kaggle의 대표적인 문제 중 하나인 타이타닉 생존자 예측을 하는 모델을 구현하기로 한다.

데이터는 https://bit.ly/fc-ml-titanic에서 다운받을 수 있다.

 

https://github.com/JHWannabe/TIL/blob/main/20230113/titanic_disaster.ipynb

 

 

GitHub - JHWannabe/TIL

Contribute to JHWannabe/TIL development by creating an account on GitHub.

github.com

 

  • PassengerId : 승객 아이디
  • Survived : 생존 여부(1:생존, 0:사망)
  • Pclass : 등급
  • Name : 승객 이름
  • Sex : 성별
  • Age : 나이
  • SibSp : 형제, 자매, 배우자 수
  • Parch : 부모, 자식 수
  • Ticket : 티켓 번호
  • Fare : 요금
  • Cabin : 좌석 번호
  • Embarked : 탑승 항구
 
 
 

 

 
 

Column 수가 많아, 다 사용하기에는 용량적인 문제나 필요하지 않은 내용이 있기 때문에 필요한 Column만 선택하여 다시 만들었다.

train dataset을 살펴보니, Age Column에 177개의 Null 값이 있는 것을 확인할 수 있다. 결측치를 처리하는 방법에는 0으로 채우는 방법과, 평균으로 채우는 방법 이외에도 많은 방법이 있다. 여기에서는 평균으로 결측치를 처리하였다.

 

Impute를 사용하여 여러 개의 Column을 한 번에 제어할 수 있다.

 

Numerical Column이 아닌 Categorical Column에 대해서도 적용이 가능하다.

728x90
반응형