융무의 기술블로그
article thumbnail
[kaggle][Bike Sharing Demand] 자전거 수요 예측 모델링
Data Analysis/Kaggle 2020. 5. 15. 20:32

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. datetime - 시간별 날짜 season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday - 하루가 휴일로 간주되는지 여부 workingday - 주말과 휴일이 아닌 일하는 날 weather - 1: 맑음, 구름 조금, 흐림 2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름 4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 temp - 섭씨 온도 atemp - 섭씨 온도의 느낌 humidity - 상대 습도 windspeed - 풍속 casual - 미등록 사용자 대여수 registered - 등록된 ..

article thumbnail
[kaggle][Bike Sharing Demand] 자전거 수요 예측 EDA & FE
Data Analysis/Kaggle 2020. 5. 15. 20:17

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. datetime - 시간별 날짜 season - 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday - 하루가 휴일로 간주되는지 여부 workingday - 주말과 휴일이 아닌 일하는 날 weather - 1: 맑음, 구름 조금, 흐림 2: 안개 + 흐림, 안개 + 구름, 안개 + 구름이 거의 없음 + 흐림 3: 가벼운 눈, 가벼운 비 + 천둥+ 구름, 가벼운 비 + 구름 4: 폭우 + 우박 + 천둥 + 안개, 눈 + 안개 temp - 섭씨 온도 atemp - 섭씨 온도의 느낌 humidity - 상대 습도 windspeed - 풍속 casual - 미등록 사용자 대여수 registered - 등록된 ..

article thumbnail
[kaggle][house prices] 보스턴 집값 예측 모델링
Data Analysis/Kaggle 2020. 5. 8. 17:23

캐글 보스턴 집값 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다.본 글의 순서는 아래와 같습니다. III. 모델링 IV. 예측 제출결과 rmsle score 0.11891을 얻을 수 있었으며 상위 10% 해당되었습니다. 모델링 과정에서 공부를 조금 더 하면 모델의 성능을 조금 더 올릴 수 있을거 같습니다 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/house-prices-for-begginers [한글커널][House Prices]보스턴 집값 예측 for Begginers Explore and run machine learning code with Kaggle Notebooks | Using data from House P..

article thumbnail
[kaggle][house prices] 보스턴 집값 예측 EDA_FE
Data Analysis/Kaggle 2020. 5. 8. 14:13

캐글 보스턴 집값 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. 본 글의 순서는 아래와 같습니다. I. 데이터 불러오기 및 확인 데이터는 일부만을 설명하였습니다 II. EDA & FE 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/house-prices-for-begginers [한글커널][House Prices]보스턴 집값 예측 for Begginers Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices: Advanced Regression Techniques www.kaggle.com 참고) #1 House P..

article thumbnail
[kaggle][titanic] 타이타닉 모델링
Data Analysis/Kaggle 2020. 5. 3. 13:56

캐글 타이타닉 데이터 분석을 해보았습다. 캐글 노트북에서 필요한 부분들을 참고하였으며 순서는 아래의 목차와 같습니다. III. 모델링 보팅을 통해서 제출결과 accuracy 0.77990이 나왔다. 이번 타이타닉 데이터의 경우 타이타닉 원본 데이터 존재로 인해서 많은 사람들이 정확도가 1이 나올 수 있었고 이번 타이타닉 데이터 분석을 통해서 데이터분석에 관해 잘못 알고있었던 점과 부족했던 부분에 대해서 더 자세히 알게 되는 계기가 되었으며 기초적인 데이터일지라도 피처에 대해 많은 생각을 하게 되었던 캐글이였다. 특히나 모델링 부분에서 많은 점을 배울 수 있어서 좋은 경험이 되었다. 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/titanic-fo..

article thumbnail
[kaggle][titanic] 타이타닉 EDA 및 FE
Data Analysis/Kaggle 2020. 5. 3. 00:00

캐글 타이타닉 데이터 분석을 해보았습다. 캐글 노트북에서 필요한 부분들을 참고하였으며 순서는 아래의 목차와 같습니다. I. 데이터 불러오기 및 확인 II. EDA & FE 코드는 아래 캐글 커널에서 볼 수 있습니다. https://www.kaggle.com/munmun2004/titanic-for-begginers [titanic][한글커널]타이타닉 데이터분석 for Begginers Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com 본 글은 아래의 사이트를 참고하였습니다. 참고] Titanic Survival: Sea..

article thumbnail
[시계열] 홀트의 선형지수평활법, Holt-winter의 계절지수평활법
Data Analysis 2020. 4. 22. 21:21

통계청 수출입물가조사 데이터를 이용해서 1971년~2019년 데이터를 가지고 시계열 데이터 분석을 해보려고 한다. http://kostat.go.kr/wnsearch/search.jsp 통계청 통합검색 kostat.go.kr 홀트의 선형지수평활법에 의하면 2020년도 예측값은 99.72986이 나오고 시간이 지날수록 점점 감소해가는 그래프를 보인다. 홀트의 계절지수평활법에 의하면 2020년도 예측값은 102.8334이 나오고 위의 그래프를 띈다.

article thumbnail
[시계열] 단순이동평균과 단순지수평활법
Data Analysis 2020. 4. 22. 20:58

http://kostat.go.kr/wnsearch/search.jsp 통계청 통합검색 kostat.go.kr 통계청 수출입물가조사 데이터를 이용해서 1971년~2019년 데이터를 가지고 시계열 데이터 분석을 해보려고 한다. loc를 이용해서 원하는 부분만을 불러온 다음에 plot을 이용해서 그래프를 그릴수도 있지만 seaborn에 있는 relplot을 이용해서 시계열 그래프를 그려본다. 물가지수의 연도별 상승률을 시계열 그래프로 그려보았 을 때 평균과 분산이 변하는 비정상 시계열이다. 단순이동평균법(simple moving average)은 가장 최근의 m-기간 동안의 자료들의 단순평균을 이용하여 다음 기간을 예측하는 방법이며 최근의 새로운 자료들이 첨가되어도 단순평균값에 거의 영향을 주지 못할 뿐만 ..