캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.
- datetime - 시간별 날짜
- season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울
- holiday - 하루가 휴일로 간주되는지 여부
- workingday - 주말과 휴일이 아닌 일하는 날
- weather - 1: 맑음, 구름 조금, 흐림
2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림
3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름
4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 - temp - 섭씨 온도
- atemp - 섭씨 온도의 느낌
- humidity - 상대 습도
- windspeed - 풍속
- casual - 미등록 사용자 대여수
- registered - 등록된 사용자 대여수
- count - 총 대여수
모델링
gridsearch를 할 때 rmsle는 score에 없으므로 모델 성능을 평가하기 위해서 make_scorer에
RMSLE 함수를 만들었습니다.
단순선형회귀
모델의 설명력은 0.5가까이 되었으며 p-value가 유의수준 0.05보다 낮았습니다.
Lasso
Lasso 모델의 경우 rmsle score가 0.3232985893077126 나왔습니다.
ElasticNet
Enet 모델의 경우 rmsle score가 0.3232985893077126 나왔습니다.
RandomForestRegressor
RandomForestRegressor모델의 경우 rmsle score가 0.08345633062361249 나왔습니다.
GradientBoostingRegressor
GradientBoostingRegressor모델의 경우 rmsle score가 0.31466806568285866 나왔습니다.
LGBMRegressor
LGBMRegressor모델의 경우 rmsle score가 0.08392102336325613 나왔습니다.
모델비교
4가지 모델의 경우 rmsle 스코어가 RF와 lgb모델이 제일 낮았습니다.
예측
RF 모델 예측
lgb 모델 예측
앙상블
그 결과 리더보드 순위 152등에 속하며 상위 4.3%안에 순위하고있습니다.
데이터 모델링에서 모델의 예측을 높이기 위해서는 전처리 과정과 FE가 중요하다는 것을 배운 캐글 대회였습니다.
참고)
- Bike Sharing Demand Starter Code (Score : 0.37235) (https://www.kaggle.com/cuijamm/bike-sharing-demand-starter-code-score-0-37235)
- EDA & Ensemble Model (Top 10 Percentile) (https://www.kaggle.com/viveksrinivasan/eda-ensemble-model-top-10-percentile#Linear-Regression-Model)
- [Bike Sharing Demand] for Korean Beginners (한글커널) (https://www.kaggle.com/kongnyooong/bike-sharing-demand-for-korean-beginners)
'Data Analysis > Kaggle' 카테고리의 다른 글
[kaggle][New York City Taxi Duration] 뉴욕 택시 여행기간 EDA&FE (0) | 2020.06.01 |
---|---|
kaggle][필사]Predict Future Sales (0) | 2020.05.23 |
[kaggle][Bike Sharing Demand] 자전거 수요 예측 EDA & FE (0) | 2020.05.15 |
[kaggle][house prices] 보스턴 집값 예측 모델링 (0) | 2020.05.08 |
[kaggle][house prices] 보스턴 집값 예측 EDA_FE (0) | 2020.05.08 |