융무의 기술블로그
article thumbnail
[크롤링]BeautifulSoup + selenium을 이용한 표 크롤링
Data Analysis 2020. 6. 17. 00:39

시계열 데이터 분석을 위해 한국 공항공사에 있는 데이터를 수집하려고 한다 https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399 시계열 통계 : 항공통계 : 고객센터 : KAC 한국공항공사 해당 월 통계자료는 익월 업무일 기준 5일 이후 공표 www.airport.co.kr 한국공항공사에 가면 데이터를 엑셀형태로 받을 수 있지만 내가 원하는 형태로 불러오기 위해 크롤링을 하기로 했다. 한국공항공사 사이트에 들어가면 항공통계가 있는데 아래에 원하는 연도의 테이블을 크롤링 하는법에 대해 알려주려고 한다. Solution 먼저 필요한 라이브러리를 불러온뒤에 webdriver을 이용해준다. webdriver에 관한 설명은 아래..

article thumbnail
[크롤링]BeautifulSoup을 이용한 표 크롤링
Data Analysis 2020. 6. 17. 00:21

시계열 데이터 분석을 위해 한국 공항공사에 있는 데이터를 수집하려고 한다 https://www.airport.co.kr/www/extra/stats/timeSeriesStats/layOut.do?menuId=399 시계열 통계 : 항공통계 : 고객센터 : KAC 한국공항공사 해당 월 통계자료는 익월 업무일 기준 5일 이후 공표 www.airport.co.kr 한국공항공사에 가면 데이터를 엑셀형태로 받을 수 있지만 내가 원하는 형태로 불러오기 위해 크롤링을 하기로 했다. 한국공항공사 사이트에 들어가면 항공통계가 있는데 아래에 원하는 연도의 테이블을 크롤링 하는법에 대해 알려주려고 한다. Solution BeautifulSoup 라이브러리는 정적인 페이지에 주로 사용되는데 여기서는 2000.01~2000.1..

article thumbnail
[python][경마 데이터 분석]경마 말혈통정보 크롤링 Xpath
Data Analysis 2019. 11. 25. 11:49

경주마성적표를 크롤링해와서 각 말에 대한 정보가 없어서 한국마사회 말혈통정보사이트에서 필요한 데이터를 크롤링 해오려고 한다. http://studbook.kra.co.kr/html/info/ind/stud_s_mapil_retrieve.jsp 개별말정보조회 < 말정보 studbook.kra.co.kr 경주성적표에 있는 마명을 친 후에 개별말정보조회를 통해 필요한 데이터를 가져오려고 한다. 융무는 말 등급에 대해 크롤링을 했었다. 여기서 df는 전에 포스팅한 https://mjs1995.tistory.com/6 [Python][경마 데이터 분석]경마 렛츠런파크 크롤링 Xpath 교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이..

article thumbnail
[python][경마 데이터 분석]경마 렛츠런파크 크롤링 Xpath
Data Analysis 2019. 11. 25. 11:43

교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이터포털과 경마데이터가 별로 없었기때문에 필요한 데이터들을 렛츠런파크에서 크롤링 해오려고 한다. 2018년 대회였고 한때 처음으로 크롤링을 접하고 3주동안은 하루종일 크롤링 코딩 공부만 했었던거 같다. 전에 포스팅한 크롤링과는 다르게 연습이 아니라 대회준비를 위해 코드도 신경을 썼던거같다. 나도 다른분들의 블로그를 통해서 그리고 유튜브 동영상을 보고 크롤링 코드를 공부했었고 내 코드가 다른사람들에게 도움이 되었으면 좋을거 같다. #레츠런파크 서울경마 경주성적표 http://race.kra.co.kr/raceScore/scoretablePeriodScoreList.do 경주성적표_..

article thumbnail
[python] 야구데이터 크롤링 BeautifulSoup
Data Analysis 2019. 11. 25. 11:13

야구 데이터를 분석하기 위해 팀별 OPS를 크롤링 해오려고 한다. http://cpbpoint.mbcplus.com/stats/team_rank/ :: 컴투스프로야구포인트 :: cpbpoint.mbcplus.com

article thumbnail
[python] 메뉴판닷컴 맛집 크롤링 xpath
Data Analysis 2019. 11. 25. 00:47

xpath를 통해서 내가 원하는 부분만 가져오도록 하자. 혼자 selenium을 공부하면서 많은 블로그들을 보면서 독학을 했었다. 내가 원하는 곳을 크롤링 하는 곳이 없어서 다른 사이트들 코드를 보면서 공부했었다. http://www.menupan.com/restaurant/bestrest/bestrest.asp?pt=rt&areacode=jj201' 맛집TOP1000 - 매일매일 맛있게 메뉴판닷컴 2019년 11월 25일 오전 0시 40분 기준 www.menupan.com 이렇게 한페이지에 있는 모든 가게들을 순차적으로 들어가서 내가 데이터 분석을 하는데 있어 원하는 부분만을 가져오기 위해 selenium패키지를 이용해서 코드를 짜보려고 한다. 이렇게 실행을 아래와 같이 데이터프레임을 만들수 있는데 d..

article thumbnail
[python] 메뉴판닷컴 맛집 크롤링 BeautifulSoup
Data Analysis 2019. 11. 25. 00:20

메뉴판닷컴에 있는 첫번째 페이지에서 크롤링 하는 연습을 했다. http://www.menupan.com/restaurant/bestrest/bestrest.asp?page={}&trec=925&areacode=jj201&pt=rt 맛집TOP1000 - 매일매일 맛있게 메뉴판닷컴 2019년 11월 25일 오전 0시 10분 기준 www.menupan.com 정적인 페이지자료를 크롤링할때 자주 사용하는 BeautifulSoup에 대해서 공부해 보았다. 조금더 응용해서 동적인 페이지자료를 크롤링하는 XPATH에 대해 공부해보자