캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.
- datetime - 시간별 날짜
- season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울
- holiday - 하루가 휴일로 간주되는지 여부
- workingday - 주말과 휴일이 아닌 일하는 날
- weather - 1: 맑음, 구름 조금, 흐림
2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림
3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름
4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 - temp - 섭씨 온도
- atemp - 섭씨 온도의 느낌
- humidity - 상대 습도
- windspeed - 풍속
- casual - 미등록 사용자 대여수
- registered - 등록된 사용자 대여수
- count - 총 대여수
EDA & FE
데이터 확인 결과 결측치는 없는 것으로 보였습니다
타겟변수 확인
데이터 합치기
datetime
season
season 피처를 barplot을 그려보았더니 카테고리 형식을 띄고 있어서
나중에 모델링을 위해서 더미변수를 생성하였습니다.
holiday
Workingday
workingday 피처의 데이터로 보아서 카테코리 데이터로 봐야할거 같습니다.
weather
weather 피처를 barplot을 그려보았더니 카테고리 형식을 띄고 있어서
나중에 모델링을 위해서 더미변수를 생성하였습니다.
왜도 확인
왜도 확인 결과 수치형 변수인 windspeed 피처에 대해서 확인해봐야 할거 같습니다.
상관도
temp와 humidity 피처 사이에 강한 상관관계를 가지고 있기 때문에 다중공선성을 확인해 봐야할거같다. casual과 registered 피처는 누설변수 이기 때문에 고려하지 않는다. 타겟변수인 cout와 temp,humidity,windspeed를 고려해야 할거 같다.
다중공선성
PCA
수치형 변수
windspeed
풍속의 경우 0인 부분에 평균값으로 대체를 하였습니다.
범주형 변수
데이터 EDA와 FE에 대해서 마치고 다음은 모델링 부분으로 넘어가겠습니다.
참고)
- Bike Sharing Demand Starter Code (Score : 0.37235) (https://www.kaggle.com/cuijamm/bike-sharing-demand-starter-code-score-0-37235)
- EDA & Ensemble Model (Top 10 Percentile) (https://www.kaggle.com/viveksrinivasan/eda-ensemble-model-top-10-percentile#Linear-Regression-Model)
- [Bike Sharing Demand] for Korean Beginners (한글커널) (https://www.kaggle.com/kongnyooong/bike-sharing-demand-for-korean-beginners)
'Data Analysis > Kaggle' 카테고리의 다른 글
kaggle][필사]Predict Future Sales (0) | 2020.05.23 |
---|---|
[kaggle][Bike Sharing Demand] 자전거 수요 예측 모델링 (0) | 2020.05.15 |
[kaggle][house prices] 보스턴 집값 예측 모델링 (0) | 2020.05.08 |
[kaggle][house prices] 보스턴 집값 예측 EDA_FE (0) | 2020.05.08 |
[kaggle][titanic] 타이타닉 모델링 (0) | 2020.05.03 |