지난 캐글 대회인 San Francisco Crime Classification에 대해서 범죄분류를 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. I. 데이터 불러오기 및 확인 제출 결과 multi-class logarithmic loss score 2.34074로 72등에 위치하고 상위 4% 안에 들었습니다. 모델을 만들고 하이퍼 파라미터 튜닝을 Bayesian Optimization으로 해주면 모델의 성능을 더 높일수 있을거 같습니다. Bayesian Optimization에 대해서는 다음에 일반 classfication 모델을 만들때 해보려고 합니다. 처음으로 해본 multiclassfication이였지만 모델링 과정에서 많은 것을 배웠으며 범죄 데이터 ..
지난 캐글 대회인 New York City Taxi Duration에 대해서 여행기간 예측을 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. III. 모델링 IV. 예측 제출 결과 rmsle score 0.38135가 나왔습니다. 데이터 이상치 조절을 하고 각 피처들에 대해 데이터 처리를 더 해준다면 모델의 성능을 더 올릴 수 있을거같습니다. 본 글의 코드는 다음 캐글 커널에서 확인 할 수 있습니다. https://www.kaggle.com/munmun2004/nyc-taxi NYC Taxi 한글커널 Explore and run machine learning code with Kaggle Notebooks | Using data from New York City..
지난 캐글 대회인 New York City Taxi Duration에 대해서 여행기간 예측을 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. I.데이터 불러오기 및 확인 II. EDA & FE 본 글의 코드는 다음 캐글 커널에서 확인 할 수 있습니다. https://www.kaggle.com/munmun2004/nyc-taxi NYC Taxi 한글커널 Explore and run machine learning code with Kaggle Notebooks | Using data from New York City Taxi Trip Duration www.kaggle.com 본 커널은 아래 커널들을 참고 하였습니다. Beat the benchmark!(https:..
캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. Predict Future Sales 데이터는 sales 데이터를 가지고 미래의 salse 양을 예측하는 대회인데 L.point 공모전을 진행하면서 많이 공부해보고 싶은 분야이기도 했었고 FE과정이 어렵고 배울게 많아서 필사를 하게 되었습니다. 데이터 sales_train.csv - train 데이터, 2013년 1월부터 2015년 10월 까지의 일일 데이터 test.csv - test데이터, 2015년 11월에 상점과 제품의 판매량을 예측해야한다 sample_submission.csv - submission 샘플 데이터 items.csv - 품목 / 제품에 대한 정보 item_categories.csv - item ..
캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. datetime - 시간별 날짜 season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday - 하루가 휴일로 간주되는지 여부 workingday - 주말과 휴일이 아닌 일하는 날 weather - 1: 맑음, 구름 조금, 흐림 2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름 4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 temp - 섭씨 온도 atemp - 섭씨 온도의 느낌 humidity - 상대 습도 windspeed - 풍속 casual - 미등록 사용자 대여수 registered - 등록된 ..
캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. datetime - 시간별 날짜 season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday - 하루가 휴일로 간주되는지 여부 workingday - 주말과 휴일이 아닌 일하는 날 weather - 1: 맑음, 구름 조금, 흐림 2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름 4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 temp - 섭씨 온도 atemp - 섭씨 온도의 느낌 humidity - 상대 습도 windspeed - 풍속 casual - 미등록 사용자 대여수 registered - 등록된 ..
캐글 보스턴 집값 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.본 글의 순서는 아래와 같습니다. III. 모델링 IV. 예측 제출결과 rmsle score 0.11891을 얻을 수 있었으며 상위 10% 해당되었습니다. 모델링 과정에서 공부를 조금 더 하면 모델의 성능을 조금 더 올릴 수 있을거 같습니다 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/house-prices-for-begginers [한글커널][House Prices]보스턴 집값 예측 for Begginers Explore and run machine learning code with Kaggle Notebooks | Using data from House P..
캐글 보스턴 집값 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. 본 글의 순서는 아래와 같습니다. I. 데이터 불러오기 및 확인 데이터는 일부만을 설명하였습니다 II. EDA & FE 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/house-prices-for-begginers [한글커널][House Prices]보스턴 집값 예측 for Begginers Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices: Advanced Regression Techniques www.kaggle.com 참고) #1 House P..