융무의 기술블로그
article thumbnail
[python][경마 데이터 분석]경마 렛츠런파크 크롤링 Xpath
Data Analysis 2019. 11. 25. 11:43

교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이터포털과 경마데이터가 별로 없었기때문에 필요한 데이터들을 렛츠런파크에서 크롤링 해오려고 한다. 2018년 대회였고 한때 처음으로 크롤링을 접하고 3주동안은 하루종일 크롤링 코딩 공부만 했었던거 같다. 전에 포스팅한 크롤링과는 다르게 연습이 아니라 대회준비를 위해 코드도 신경을 썼던거같다. 나도 다른분들의 블로그를 통해서 그리고 유튜브 동영상을 보고 크롤링 코드를 공부했었고 내 코드가 다른사람들에게 도움이 되었으면 좋을거 같다. #레츠런파크 서울경마 경주성적표 http://race.kra.co.kr/raceScore/scoretablePeriodScoreList.do 경주성적표_..

article thumbnail
[python] 야구데이터 크롤링 BeautifulSoup
Data Analysis 2019. 11. 25. 11:13

야구 데이터를 분석하기 위해 팀별 OPS를 크롤링 해오려고 한다. http://cpbpoint.mbcplus.com/stats/team_rank/ :: 컴투스프로야구포인트 :: cpbpoint.mbcplus.com

article thumbnail
[python][프로그래머스 lv1] 완주하지 못한 선수
Algorithm/Python 2019. 11. 25. 11:00

#다른사람의 풀이 collections 패키지 사용 이렇게 collections 함수를 써서 딕셔너리 형태로 바꿔준다음 -를 사용해서 완주하지 못하는 사람을 구하는거 같다. 창의적으로 문제를 풀어보려고 해보자

article thumbnail
[python] 메뉴판닷컴 맛집 크롤링 xpath
Data Analysis 2019. 11. 25. 00:47

xpath를 통해서 내가 원하는 부분만 가져오도록 하자. 혼자 selenium을 공부하면서 많은 블로그들을 보면서 독학을 했었다. 내가 원하는 곳을 크롤링 하는 곳이 없어서 다른 사이트들 코드를 보면서 공부했었다. http://www.menupan.com/restaurant/bestrest/bestrest.asp?pt=rt&areacode=jj201' 맛집TOP1000 - 매일매일 맛있게 메뉴판닷컴 2019년 11월 25일 오전 0시 40분 기준 www.menupan.com 이렇게 한페이지에 있는 모든 가게들을 순차적으로 들어가서 내가 데이터 분석을 하는데 있어 원하는 부분만을 가져오기 위해 selenium패키지를 이용해서 코드를 짜보려고 한다. 이렇게 실행을 아래와 같이 데이터프레임을 만들수 있는데 d..

article thumbnail
[python] 메뉴판닷컴 맛집 크롤링 BeautifulSoup
Data Analysis 2019. 11. 25. 00:20

메뉴판닷컴에 있는 첫번째 페이지에서 크롤링 하는 연습을 했다. http://www.menupan.com/restaurant/bestrest/bestrest.asp?page={}&trec=925&areacode=jj201&pt=rt 맛집TOP1000 - 매일매일 맛있게 메뉴판닷컴 2019년 11월 25일 오전 0시 10분 기준 www.menupan.com 정적인 페이지자료를 크롤링할때 자주 사용하는 BeautifulSoup에 대해서 공부해 보았다. 조금더 응용해서 동적인 페이지자료를 크롤링하는 XPATH에 대해 공부해보자