융무의 기술블로그
article thumbnail

https://www.kaggle.com/c/competitive-data-science-predict-future-sales/data

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.

Predict Future Sales 데이터는 sales 데이터를 가지고 미래의 salse 양을 예측하는 대회인데 L.point 공모전을 진행하면서

많이 공부해보고 싶은 분야이기도 했었고 FE과정이 어렵고 배울게 많아서 필사를 하게 되었습니다.

 

데이터
  • sales_train.csv - train 데이터, 2013년 1월부터 2015년 10월 까지의 일일 데이터
  • test.csv - test데이터, 2015년 11월에 상점과 제품의 판매량을 예측해야한다
  • sample_submission.csv - submission 샘플 데이터
  • items.csv - 품목 / 제품에 대한 정보
  • item_categories.csv - item 카테고리에 대한 정보
  • shops.csv- 상점에 대한 보충정보
  • ID -test 세트 내의 (shop과 item)에 관한 튜플을 나타내는 id
  • shop_id - 상점의 고유 식별자
  • item_id - 제품의 고유 식별자
  • item_category_id - 상품 카테고리의 고유 식별자
  • item_cnt_day - 판매된 제품 수 월별 금액을 예측할수 있다
  • item_price - item에 관한 가격
  • date - 해당 날짜
  • date_block_num - 편의를 위해 연속된 월 번호 / 2013년 1월은 0 2013년 2월은 2 ~ 2015년 10월은 33 
  • item_name - 아이탬 이름
  • shop_name - 상점 이름
  • item_category_name - 상품 카테고리 이름
EDA & FE

모델링

 

본 커널은

Feature engineering, xgboost(https://www.kaggle.com/dlarionov/feature-engineering-xgboost) 을 필사한 것으로 

FE부분에 대해서 많은 공부를 하게 되었습니다. 1733등으로 모델을 앙상블 시켜 더 높은 점수를 얻을수 있었지만

상품 데이터 분석에 대해서 더 많은 공부를 하고 난뒤에 다시 컴피티션에 도전해봐야할거같습니다.

 

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!