융무의 기술블로그
article thumbnail

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.

 

  • datetime - 시간별 날짜 
  • season -  1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울
  • holiday - 하루가 휴일로 간주되는지 여부
  • workingday - 주말과 휴일이 아닌 일하는 날
  • weather - 1: 맑음, 구름 조금, 흐림
                  2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 
                  3: 가벼운 눈, 가벼운 비 + 천둥+  구름, 가벼운 비 +  구름
                  4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개
  • temp - 섭씨 온도
  • atemp - 섭씨 온도의 느낌
  • humidity - 상대 습도
  • windspeed - 풍속
  • casual - 미등록 사용자 대여수
  • registered - 등록된 사용자 대여수 
  • count - 총 대여수
EDA & FE

데이터 확인 결과 결측치는 없는 것으로 보였습니다

타겟변수 확인

데이터 합치기

datetime

season

season 피처를 barplot을 그려보았더니 카테고리 형식을 띄고 있어서

나중에 모델링을 위해서 더미변수를 생성하였습니다.

holiday

Workingday

workingday 피처의 데이터로 보아서 카테코리 데이터로 봐야할거 같습니다.

weather

weather 피처를 barplot을 그려보았더니 카테고리 형식을 띄고 있어서

나중에 모델링을 위해서 더미변수를 생성하였습니다.

왜도 확인

 

왜도 확인 결과 수치형 변수인 windspeed 피처에 대해서 확인해봐야 할거 같습니다.

상관도

temp와 humidity 피처 사이에 강한 상관관계를 가지고 있기 때문에 다중공선성을 확인해 봐야할거같다. casual과 registered 피처는 누설변수 이기 때문에 고려하지 않는다. 타겟변수인 cout와 temp,humidity,windspeed를 고려해야 할거 같다.

다중공선성

PCA

수치형 변수

windspeed

풍속의 경우 0인 부분에 평균값으로 대체를 하였습니다.

범주형 변수

데이터 EDA와 FE에 대해서 마치고 다음은 모델링 부분으로 넘어가겠습니다.

 

 

참고)

 

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!