본문 바로가기
AI 입문/Kaggle | DACON

[모각소] 3 DACON 서울시 따릉이 대여량 예측 경진대회

by jhwannabe 2023. 1. 27.

https://github.com/JHWannabe/TIL/blob/main/20230127/%5BDACON%5D_%EB%94%B0%EB%A6%89%EC%9D%B4_%EB%8C%80%EC%97%AC%EB%9F%89_%EC%98%88%EC%B8%A1.ipynb

https://github.com/JHWannabe/TIL/blob/main/20230127/%EB%94%B0%EB%A6%89%EC%9D%B4_%EB%8C%80%EC%97%AC%EB%9F%89_%EC%98%88%EC%B8%A1.ipynb

 

GitHub - JHWannabe/TIL

Contribute to JHWannabe/TIL development by creating an account on GitHub.

github.com

 

GitHub - JHWannabe/TIL

Contribute to JHWannabe/TIL development by creating an account on GitHub.

github.com

Data
서울시 마포구의 날짜별, 시간별 기상상황과 따릉이 대여 수 데이터

  • id 고유 id
  • hour 시간
  • temperature 기온
  • precipitation 비가 오지 않았으면 0, 비가 오면 1
  • windspeed 풍속(평균)
  • humidity 습도
  • visibility 시정(視程), 시계(視界)(특정 기상 상태에 따른 가시성을 의미)
  • ozone 오존
  • pm10 미세먼지(머리카락 굵기의 1/5에서 1/7 크기의 미세먼지)
  • pm2.5 미세먼지(머리카락 굵기의 1/20에서 1/30 크기의 미세먼지)
  • count 시간에 따른 따릉이 대여 수

시각화

HeatMap

RegPlot

모델 비교

이렇게 진행해서 Linear Regression과 Random Forest로 test를 진행하고 DACON에 제출했다.

그 결과는 당황스럽다.

RMSE 점수가 linear_regression은 70점, random_forest가 68점이 나온 것을 확인할 수 있다. 근데 이상한 점은 데이터 분석을 하여 연관된 컬럼으로 구현한 모델보다 결측값을 0으로 채운 모델이 45점으로 제일 최고 점수가 나온 것이다. 이에 대해서 심도 있는 연구가 필요해보인다.

728x90