융무의 기술블로그
article thumbnail

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.

  • datetime - 시간별 날짜 
  • season -  1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울
  • holiday - 하루가 휴일로 간주되는지 여부
  • workingday - 주말과 휴일이 아닌 일하는 날
  • weather - 1: 맑음, 구름 조금, 흐림
                  2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 
                  3: 가벼운 눈, 가벼운 비 + 천둥+  구름, 가벼운 비 +  구름
                  4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개
  • temp - 섭씨 온도
  • atemp - 섭씨 온도의 느낌
  • humidity - 상대 습도
  • windspeed - 풍속
  • casual - 미등록 사용자 대여수
  • registered - 등록된 사용자 대여수 
  • count - 총 대여수
모델링

 

gridsearch를 할 때 rmsle는 score에 없으므로 모델 성능을 평가하기 위해서 make_scorer에 

RMSLE 함수를 만들었습니다.

단순선형회귀

모델의 설명력은 0.5가까이 되었으며 p-value가 유의수준 0.05보다 낮았습니다.

Lasso

Lasso 모델의 경우 rmsle score가 0.3232985893077126 나왔습니다.

ElasticNet

Enet 모델의 경우 rmsle score가 0.3232985893077126 나왔습니다.

RandomForestRegressor

RandomForestRegressor모델의 경우 rmsle score가 0.08345633062361249 나왔습니다.

GradientBoostingRegressor

GradientBoostingRegressor모델의 경우 rmsle score가 0.31466806568285866 나왔습니다.

LGBMRegressor

LGBMRegressor모델의 경우 rmsle score가 0.08392102336325613 나왔습니다.

모델비교

4가지 모델의 경우 rmsle 스코어가 RF와 lgb모델이 제일 낮았습니다.

예측
RF 모델 예측

lgb 모델 예측

앙상블

그 결과 리더보드 순위 152등에 속하며 상위 4.3%안에 순위하고있습니다.

데이터 모델링에서 모델의 예측을 높이기 위해서는 전처리 과정과 FE가 중요하다는 것을 배운 캐글 대회였습니다.

 

 

참고)

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!