
- 크롤링해온 데이터를 통해서 데이터탐색을 해보려고 한다. 크롤링을 통해서 내가 원하는 부분만을 가져와서 전처리할게 별로 없었다. -모든 변수들에 대해서 countplot을 그려서 분포를 확인했었고 -heatmap을 통해서 변수들의 연관성에 대해서 생각을 해보았다. -spss 카이제곱 검정을 통해서 변수들의 연관성 여부에 대해서 검정을 실시해보았고 기존 연구에서 유의미하다고 생각되는 변수들도 순위에 영향을 줄거라고 생각을 해보고 데이터 분석을 실시하였다. EDA를 통해 연관성있는 변수들에 대해서 따로 지정을 해주고 초단위를 정제해주었다. 그 다음 더미변수들을 생성하여 데이터에 merge merge하였고 전처리 된 데이터를 새롭게 csv형태로 만들어주었다.

#다른사람의 코드 람다 함수를 써서 순서만큼 뽑고 코드를 정렬한후 commands의 개수만큼 map을 해서 리스트에 넣어주는것이다. 창의적으로 코드를 생각해봐야겠다

#다른사람의 풀이 2차원 행렬형태로 간결하게 코드를 짜셨다. 아직 부족하고 조금더 포문돌리는것에 대해서 공부를 해야겠다.

경주마성적표를 크롤링해와서 각 말에 대한 정보가 없어서 한국마사회 말혈통정보사이트에서 필요한 데이터를 크롤링 해오려고 한다. http://studbook.kra.co.kr/html/info/ind/stud_s_mapil_retrieve.jsp 개별말정보조회 < 말정보 studbook.kra.co.kr 경주성적표에 있는 마명을 친 후에 개별말정보조회를 통해 필요한 데이터를 가져오려고 한다. 융무는 말 등급에 대해 크롤링을 했었다. 여기서 df는 전에 포스팅한 https://mjs1995.tistory.com/6 [Python][경마 데이터 분석]경마 렛츠런파크 크롤링 Xpath 교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이..

교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이터포털과 경마데이터가 별로 없었기때문에 필요한 데이터들을 렛츠런파크에서 크롤링 해오려고 한다. 2018년 대회였고 한때 처음으로 크롤링을 접하고 3주동안은 하루종일 크롤링 코딩 공부만 했었던거 같다. 전에 포스팅한 크롤링과는 다르게 연습이 아니라 대회준비를 위해 코드도 신경을 썼던거같다. 나도 다른분들의 블로그를 통해서 그리고 유튜브 동영상을 보고 크롤링 코드를 공부했었고 내 코드가 다른사람들에게 도움이 되었으면 좋을거 같다. #레츠런파크 서울경마 경주성적표 http://race.kra.co.kr/raceScore/scoretablePeriodScoreList.do 경주성적표_..

야구 데이터를 분석하기 위해 팀별 OPS를 크롤링 해오려고 한다. http://cpbpoint.mbcplus.com/stats/team_rank/ :: 컴투스프로야구포인트 :: cpbpoint.mbcplus.com

#다른사람의 풀이 collections 패키지 사용 이렇게 collections 함수를 써서 딕셔너리 형태로 바꿔준다음 -를 사용해서 완주하지 못하는 사람을 구하는거 같다. 창의적으로 문제를 풀어보려고 해보자

xpath를 통해서 내가 원하는 부분만 가져오도록 하자. 혼자 selenium을 공부하면서 많은 블로그들을 보면서 독학을 했었다. 내가 원하는 곳을 크롤링 하는 곳이 없어서 다른 사이트들 코드를 보면서 공부했었다. http://www.menupan.com/restaurant/bestrest/bestrest.asp?pt=rt&areacode=jj201' 맛집TOP1000 - 매일매일 맛있게 메뉴판닷컴 2019년 11월 25일 오전 0시 40분 기준 www.menupan.com 이렇게 한페이지에 있는 모든 가게들을 순차적으로 들어가서 내가 데이터 분석을 하는데 있어 원하는 부분만을 가져오기 위해 selenium패키지를 이용해서 코드를 짜보려고 한다. 이렇게 실행을 아래와 같이 데이터프레임을 만들수 있는데 d..