# 모형의 식별 -시계열의 분산이 시간대에 따라 변하는 것을 보아서 비정상 시계열 -ACF와 PACF를 그려보았을 때 ACF가 점점 감소하는 경향 -PACF를 그려보았을 때 2번째 부분과 8번째 부분을 제외하고는 절단값을 가짐 -AR모형으로 추정이 됨 # 분산 안정화 - 로그 변환과 멱변환 중 멱변환을 사용하였습니다. - boxcox 함수 사용시 종속변수는 양수여야 함으로 소수점 첫 번째 자리에서 반올림 - 종속변수는 양수여야 하므로 시계열 자료에 0이 있으므로 1을 추가하였습니다. - Box-Cox 변환을 통해 모수( )는 0.3434343 -Box-Cox 변환에서 조금 더 정밀하게 보기위해 lamda에 –1 -비정상 데이터를 차분을 통해 정상화 -ADF test 결과 분산안정화한 데이터는 유의확률이 ..
#시계열 그림을 그려라. 그리고 이를 바탕으로 시계열자료가 가지고 있는 경향을 대략적으로 설명하여라. -1990년부터 2012년까지의 소비자물가지수의 연도별 상승률을 시계열 그래프로 그려보았 을 때 평균과 분산이 변하는 비정상 시계열이다. #단순이동평균법을 이용하여 2013년의 상승률을 예측하여라. 단, 이동평균기간은 3부터 10까지의 값을 가질 수 있으며, 이 중에서 한 기간 후 예측오차의 제곱의 평균이 최소가 되도록 하는 값을 선택하여 사용한다. -이동평균기간이 3일때를 살펴보면 위와 같은 결과가 나온다. 이를 토대로 for문을 돌려 서 이동평균기간이 3부터 10까지의 값을 알아본다. -이동평균기간 m=10일 때가 최적이된다. -2013년 상승률은 3.13 이다. #단순지수평활법을 이용하여 2013년..
- Groceries 데이터는 현지 식료품 점에서 1달동안의 실제 판매 시점 거래 데이터를 의미 - 9835 행과 169 열로 이루어져 있다. EDA결과 whole milk와 other vegetables가 제일 빈번한 것을 볼 수 있다. -other vegetables 와 whole milk의 지지도가 0.07이상으로 제일 크다. -신뢰도를 0.01로 하여 조건을 만족하는 아이탬의 개수가 245개이다. > rule rule set of 62 rules > inspect(rule) > rule rule_rolls rule_rolls set of 18 rules > inspect(rule_rolls) -18개의 아이탬 개수가 나왔으며 lift를 기준으로 정렬하였을 때 sausage와 soda를 살 때 ro..
순서와 상관없이 결승선을 통과하는 1등마, 2두마,3두마를 머신러닝을 활용해서 예측해보려고 한다. 모델을 randomforest모델과 LogisticRegression모델을 사용하였다. 각 1등말,2두마,3두마별로 RF모델을 적용하고 각 1등말,2두마,3두마별로 LR모델을 적용했다. 각 데이터의 결과를 보면 과적합이 된것을 볼 수 있다. 가중치를 주어서 과적합을 해결하려고한다. 각각의 모델에 class_weight = 'balanced' 를 적용시켜 가중치를 주었다. https://scikit-learn.org/stable/modules/generated/sklearn.utils.class_weight.compute_class_weight.html sklearn.utils.class_weight.comp..
- 크롤링해온 데이터를 통해서 데이터탐색을 해보려고 한다. 크롤링을 통해서 내가 원하는 부분만을 가져와서 전처리할게 별로 없었다. -모든 변수들에 대해서 countplot을 그려서 분포를 확인했었고 -heatmap을 통해서 변수들의 연관성에 대해서 생각을 해보았다. -spss 카이제곱 검정을 통해서 변수들의 연관성 여부에 대해서 검정을 실시해보았고 기존 연구에서 유의미하다고 생각되는 변수들도 순위에 영향을 줄거라고 생각을 해보고 데이터 분석을 실시하였다. EDA를 통해 연관성있는 변수들에 대해서 따로 지정을 해주고 초단위를 정제해주었다. 그 다음 더미변수들을 생성하여 데이터에 merge merge하였고 전처리 된 데이터를 새롭게 csv형태로 만들어주었다.