융무의 기술블로그
article thumbnail
[시계열] Box-Jenkins 방법을 이용한 ARIMA모형
Data Analysis 2020. 6. 17. 21:10

한국공항공사 사이트에서 크롤링해온 데이터를 토대로 시계열 데이터 분석을 하려고 한다. Box-Jenkins 방법을 이용한 예측 모형을 만들거고 ARIMA모형과 평활법으로 예측한 모형과 비교하려고 한다. https://mjs1995.tistory.com/149 목차는 다음과 같다. 2000년 1월부터 12월~2019년 1월부터 12월의 한국공항공사 시계열 데이터를 토대로 2020년 1월~12월까지의 국내선 및 국제선 여객수 예측 코로나로 인해 2020년 항공사 여객수가 예측값에 비해서 얼마나 감소했는지 비교하기 위해 한국공항공사 시계열 데이터를 크롤링 (https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399) 한국공항공사..

article thumbnail
[크롤링]BeautifulSoup + selenium을 이용한 표 크롤링
Data Analysis 2020. 6. 17. 00:39

시계열 데이터 분석을 위해 한국 공항공사에 있는 데이터를 수집하려고 한다 https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399 시계열 통계 : 항공통계 : 고객센터 : KAC 한국공항공사 해당 월 통계자료는 익월 업무일 기준 5일 이후 공표 www.airport.co.kr 한국공항공사에 가면 데이터를 엑셀형태로 받을 수 있지만 내가 원하는 형태로 불러오기 위해 크롤링을 하기로 했다. 한국공항공사 사이트에 들어가면 항공통계가 있는데 아래에 원하는 연도의 테이블을 크롤링 하는법에 대해 알려주려고 한다. Solution 먼저 필요한 라이브러리를 불러온뒤에 webdriver을 이용해준다. webdriver에 관한 설명은 아래..

article thumbnail
[크롤링]BeautifulSoup을 이용한 표 크롤링
Data Analysis 2020. 6. 17. 00:21

시계열 데이터 분석을 위해 한국 공항공사에 있는 데이터를 수집하려고 한다 https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399 시계열 통계 : 항공통계 : 고객센터 : KAC 한국공항공사 해당 월 통계자료는 익월 업무일 기준 5일 이후 공표 www.airport.co.kr 한국공항공사에 가면 데이터를 엑셀형태로 받을 수 있지만 내가 원하는 형태로 불러오기 위해 크롤링을 하기로 했다. 한국공항공사 사이트에 들어가면 항공통계가 있는데 아래에 원하는 연도의 테이블을 크롤링 하는법에 대해 알려주려고 한다. Solution BeautifulSoup 라이브러리는 정적인 페이지에 주로 사용되는데 여기서는 2000.01~2000.1..

article thumbnail
[크롤링 오류]This version of ChromeDriver only supports Chrome version
Data Analysis 2020. 6. 16. 20:12

Problem SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 84 selenium으로 크롤링을 하려고 했는데 다음과 같이 에러가 나타났을때 해결 방법이다. Solution 1. 크롬을 열고 설정에서 도움말을 들어간 뒤에 Chrome 정보를 들어간다 2.자신의 크롬 버전을 확인한뒤에 업데이트를 하고 다시시작한다. 3.http://chromedriver.chromium.org/downloads 사이트에 들어가서 크롬드라이버를 자신의 크롬버전이랑 맞는 버전을 다운받는다 Downloads - ChromeDriver - WebDriver for Chrom..

article thumbnail
[kaggle][San Francisco Crime Classification]샌프란시스코범죄분류
Data Analysis/Kaggle 2020. 6. 12. 00:37

지난 캐글 대회인 San Francisco Crime Classification에 대해서 범죄분류를 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. I. 데이터 불러오기 및 확인 제출 결과 multi-class logarithmic loss score 2.34074로 72등에 위치하고 상위 4% 안에 들었습니다. 모델을 만들고 하이퍼 파라미터 튜닝을 Bayesian Optimization으로 해주면 모델의 성능을 더 높일수 있을거 같습니다. Bayesian Optimization에 대해서는 다음에 일반 classfication 모델을 만들때 해보려고 합니다. 처음으로 해본 multiclassfication이였지만 모델링 과정에서 많은 것을 배웠으며 범죄 데이터 ..

article thumbnail
[kaggle][New York City Taxi Duration] 뉴욕 택시 여행기간 모델링
Data Analysis/Kaggle 2020. 6. 1. 00:12

지난 캐글 대회인 New York City Taxi Duration에 대해서 여행기간 예측을 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. III. 모델링 IV. 예측 제출 결과 rmsle score 0.38135가 나왔습니다. 데이터 이상치 조절을 하고 각 피처들에 대해 데이터 처리를 더 해준다면 모델의 성능을 더 올릴 수 있을거같습니다. 본 글의 코드는 다음 캐글 커널에서 확인 할 수 있습니다. https://www.kaggle.com/munmun2004/nyc-taxi NYC Taxi 한글커널 Explore and run machine learning code with Kaggle Notebooks | Using data from New York City..

article thumbnail
[kaggle][New York City Taxi Duration] 뉴욕 택시 여행기간 EDA&FE
Data Analysis/Kaggle 2020. 6. 1. 00:05

지난 캐글 대회인 New York City Taxi Duration에 대해서 여행기간 예측을 하였습니다. 본 글은 캐글 커널을 참조하였으며 아래의 순서로 데이터 분석을 진행하였습니다. I.데이터 불러오기 및 확인 II. EDA & FE 본 글의 코드는 다음 캐글 커널에서 확인 할 수 있습니다. https://www.kaggle.com/munmun2004/nyc-taxi NYC Taxi 한글커널 Explore and run machine learning code with Kaggle Notebooks | Using data from New York City Taxi Trip Duration www.kaggle.com 본 커널은 아래 커널들을 참고 하였습니다. Beat the benchmark!(https:..

article thumbnail
kaggle][필사]Predict Future Sales
Data Analysis/Kaggle 2020. 5. 23. 16:30

캐글 자전거 수요 예측 데이터 분석을 하였습니다. 코드는 캐글 노트북을 참조하였습니다. Predict Future Sales 데이터는 sales 데이터를 가지고 미래의 salse 양을 예측하는 대회인데 L.point 공모전을 진행하면서 많이 공부해보고 싶은 분야이기도 했었고 FE과정이 어렵고 배울게 많아서 필사를 하게 되었습니다. 데이터 sales_train.csv - train 데이터, 2013년 1월부터 2015년 10월 까지의 일일 데이터 test.csv - test데이터, 2015년 11월에 상점과 제품의 판매량을 예측해야한다 sample_submission.csv - submission 샘플 데이터 items.csv - 품목 / 제품에 대한 정보 item_categories.csv - item ..