융무의 기술블로그
article thumbnail

교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다.

우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다.

공공 데이터포털과 경마데이터가 별로 없었기때문에 필요한 데이터들을 렛츠런파크에서 크롤링 해오려고 한다.

2018년 대회였고 한때 처음으로 크롤링을 접하고 3주동안은 하루종일 크롤링 코딩 공부만 했었던거 같다.

전에 포스팅한 크롤링과는 다르게 연습이 아니라 대회준비를 위해 코드도 신경을 썼던거같다.

나도 다른분들의 블로그를 통해서 그리고 유튜브 동영상을 보고 크롤링 코드를 공부했었고 

내 코드가 다른사람들에게 도움이 되었으면 좋을거 같다.

 

#레츠런파크 서울경마 경주성적표

http://race.kra.co.kr/raceScore/scoretablePeriodScoreList.do

 

경주성적표_경주성적_서울경마

경주성적경주성적표 경주일자 클릭 : 일자별 요약성적표 및 경주 동영상 경주번호 클릭 : 경주별 상세성적표 및 경주 동영상 경주성적표 리스트를 순서, 경주일자, 경주 순으로 제공하는 표 순서 경주일자 경주 1 2019/11/24 (일) 1 2 3 4 5 6 7 8 9 10 11 2 2019/11/23 (토) 1 2 3 4 5 6 7 8 9 10 11 12 3 2019/11/17 (일) 1 2 3 4 5 6 7 8 9 10 11 4 2019/11/16 (토)

race.kra.co.kr

렛츠런파크에 있는 서울경마경주성적표를 크롤링 해오려고 하는데 데이터를 내가 원하는 만큼 가져오기 위해서 코드를 짰다. 그리고 각 일자별 경주성적표 안에있는 세세한곳에서 내가 원하는 것만 가져오려고 한다.

기간별검색에서 내가 원하는 만큼 연도를 선택한다. 융무도 크롤링 했던 당시 코드는 짰지만 조금의 수작업이 필요했었다. 데이터가 너무 많다보니까 기간을 1년 단위로 끊어서 하던가 아니면 df형태로 바꾸는데 파일을 하나씩 쌓아서 합쳤다.

코드를 한줄 씩 치다보면 융무가 어떻게 코딩을 했는지 알수있다.

 

마지막으로 경마데이터분석을 할때 공부하는데 많은 도움을 주었던 블로그를 포스팅하려고 한다.

https://tariat.tistory.com/4?category=667735

 

#1-4 경마 데이터 수집하기 - 경주 결과 웹크롤링 하기

그럼 이제 하나의 경주 결과를 크롤링 해 보도록 하자. 웹크롤링(crawling)을 위해서는 HTML의 구조를 잘 아는 것이 도움이 된다. 하지만, 여기서는 HTML에 대한 자세한 설명은 생략하도록 하겠다. ( 이미 인터넷..

tariat.tistory.com

테리엇님의 경마데이터 분석을 어떻게 할지 베이스적인 부분들이 많아서 많이 참고했었던거같다.

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!