한국공항공사 사이트에서 크롤링해온 데이터를 토대로 시계열 데이터 분석을 하려고 한다. Box-Jenkins 방법을 이용한 예측 모형을 만들거고 ARIMA모형과 평활법으로 예측한 모형과 비교하려고 한다. https://mjs1995.tistory.com/149 목차는 다음과 같다. 2000년 1월부터 12월~2019년 1월부터 12월의 한국공항공사 시계열 데이터를 토대로 2020년 1월~12월까지의 국내선 및 국제선 여객수 예측 코로나로 인해 2020년 항공사 여객수가 예측값에 비해서 얼마나 감소했는지 비교하기 위해 한국공항공사 시계열 데이터를 크롤링 (https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399) 한국공항공사..
통계청 수출입물가조사 데이터를 이용해서 1971년~2019년 데이터를 가지고 시계열 데이터 분석을 해보려고 한다. http://kostat.go.kr/wnsearch/search.jsp 통계청 통합검색 kostat.go.kr 홀트의 선형지수평활법에 의하면 2020년도 예측값은 99.72986이 나오고 시간이 지날수록 점점 감소해가는 그래프를 보인다. 홀트의 계절지수평활법에 의하면 2020년도 예측값은 102.8334이 나오고 위의 그래프를 띈다.
# 모형의 식별 -시계열의 분산이 시간대에 따라 변하는 것을 보아서 비정상 시계열 -ACF와 PACF를 그려보았을 때 ACF가 점점 감소하는 경향 -PACF를 그려보았을 때 2번째 부분과 8번째 부분을 제외하고는 절단값을 가짐 -AR모형으로 추정이 됨 # 분산 안정화 - 로그 변환과 멱변환 중 멱변환을 사용하였습니다. - boxcox 함수 사용시 종속변수는 양수여야 함으로 소수점 첫 번째 자리에서 반올림 - 종속변수는 양수여야 하므로 시계열 자료에 0이 있으므로 1을 추가하였습니다. - Box-Cox 변환을 통해 모수( )는 0.3434343 -Box-Cox 변환에서 조금 더 정밀하게 보기위해 lamda에 –1 -비정상 데이터를 차분을 통해 정상화 -ADF test 결과 분산안정화한 데이터는 유의확률이 ..
#시계열 그림을 그려라. 그리고 이를 바탕으로 시계열자료가 가지고 있는 경향을 대략적으로 설명하여라. -1990년부터 2012년까지의 소비자물가지수의 연도별 상승률을 시계열 그래프로 그려보았 을 때 평균과 분산이 변하는 비정상 시계열이다. #단순이동평균법을 이용하여 2013년의 상승률을 예측하여라. 단, 이동평균기간은 3부터 10까지의 값을 가질 수 있으며, 이 중에서 한 기간 후 예측오차의 제곱의 평균이 최소가 되도록 하는 값을 선택하여 사용한다. -이동평균기간이 3일때를 살펴보면 위와 같은 결과가 나온다. 이를 토대로 for문을 돌려 서 이동평균기간이 3부터 10까지의 값을 알아본다. -이동평균기간 m=10일 때가 최적이된다. -2013년 상승률은 3.13 이다. #단순지수평활법을 이용하여 2013년..
- Groceries 데이터는 현지 식료품 점에서 1달동안의 실제 판매 시점 거래 데이터를 의미 - 9835 행과 169 열로 이루어져 있다. EDA결과 whole milk와 other vegetables가 제일 빈번한 것을 볼 수 있다. -other vegetables 와 whole milk의 지지도가 0.07이상으로 제일 크다. -신뢰도를 0.01로 하여 조건을 만족하는 아이탬의 개수가 245개이다. > rule rule set of 62 rules > inspect(rule) > rule rule_rolls rule_rolls set of 18 rules > inspect(rule_rolls) -18개의 아이탬 개수가 나왔으며 lift를 기준으로 정렬하였을 때 sausage와 soda를 살 때 ro..