융무의 기술블로그
article thumbnail

한국공항공사 사이트에서 크롤링해온 데이터를 토대로 시계열 데이터 분석을 하려고 한다.

Box-Jenkins 방법을 이용한 예측 모형을 만들거고 ARIMA모형과 평활법으로 예측한 모형과 비교하려고 한다.

https://mjs1995.tistory.com/149

목차는 다음과 같다.

2000년 1월부터 12월~2019년 1월부터 12월의 한국공항공사 시계열 데이터를 토대로 2020년 1월~12월까지의 국내선 및 국제선 여객수 예측

코로나로 인해 2020년 항공사 여객수가 예측값에 비해서 얼마나 감소했는지 비교하기 위해

한국공항공사 시계열 데이터를 크롤링

(https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399)

 

한국공항공사 시계열 데이터를 크롤링 한 뒤에 여객수만 따로 전처리 하였습니다.

시계열의 분산이 시간대에 따라 변하는 것을 보아서 비정상 시계열

2010년도 이후로는 추세성을 보임

ACF와 PACF를 그려보았을 때 ACF가 점점 감소하는 경향

PACF를 그려보았을 때 2번째 부분과 9,12,13번째 부분을 제외하고는 절단값을 가짐

AR모형으로 추정이 됨

Box-Cox 변환에서 조금 더 정밀하게 보기위해 lamda에 –1

비정상 데이터를 차분을 통해 정상화

ADF test 결과 분산안정화한 데이터는 유의확률이 유의수준 0.01보다 낮아 귀무가설을 기각하므로 정상시계열이다.

ADF test 결과 분산안정화한 데이터는 유의확률이 유의수준 0.01보다 낮아 귀무가설을

기각하므로 정상시계열이다.

잔차의 시계열 그림이 트랜드를 보이지 않는다

ACF가 첫 번째를 제외하고 대부분 0의 값을 취하는 것을 볼 수 있다.

새로 적합된 모형의 잔차들은 자기 상관성을 보이지 않는다

자기 상관성의 Ljung-Box 테스트도 높은 p-value를 보인다

따라서 : 자기 상관성은 서로 독립이다 라는 귀무가설을 기각(WN)

 

arima 패키지 안에 있는 auto.arima를 이용해서 2020년도 여객수를 구하였다.

arima(1,1,3) 모형을 선택하여 예측을 하였다.

 

홀트의 선형지수평활법을 사용해서 2020년 여객수를 예측하였다.

Python 크롤링을 통해서 2000.1월부터 2019.12월 까지 240개의 데이터를 가지고 시계열 데이터 분석을 하였다. 홀트의 선형평활법을 통해서 2020년을 예측한 결과 여객수는 증가할 것으로 판단되는데 arima모형을 통해서 2020년을 예측한 결과 여객수의 증가는 별로 없는 것으로 보인다. 또한 2020년 1월의 경우 13,450,302으로 예측한 결과와 차이가 별로 나지 않지만 코로나가 시작된 2월부터는 급격히 예측값이 차이가 나기 시작한다. 이로써 시계열 데이터에 대한 더 자세한 분석을 하기 위해서는 더 많은 변수가 필요할거같다.

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!