#다른사람의 코드 format 사용해서 index지정해놓은게 인상적이었다.
해당 글은 2018~2019년 학교생활을 병행하면서 독학했던 강의들입니다. 그동안 독학했던 공부를 정리하고자 한다. 온라인 강의 위주로 되어있다. ### edwith [edwith][찰스 세이블런 교수님] 모두를 위한 프로그래밍 : 파이썬 [edwith][찰스 세이블런 교수님] 파이썬 자료구조 [edwith][찰스 세이블런 교수님] 파이썬을 이용한 웹 스크래핑 [edwith][찰스 세이블런 교수님] 파이썬을 이용한 데이터베이스 처리 [edwith][김성훈 교수님] 머신러닝과 딥러닝 BASIC [edwith][최성철 교수님] 머신러닝을 위한 Python 워밍업 [edwith][앤드류 응 교수님]딥러닝 1단계 : 신경망과 딥러닝 [edwith][앤드류 응 교수님]딥러닝 2단계 : 심층 신경망 성능 향상시키기..
#다른사람의 코드 이렇게 Counter() 함수가 있는지 처음알았다.
#다른 사람의 코드 if문이 더 실용적인거 같다. 연속적인 수니까 생각을 조금 더 해보도록하자.
#다른사람의 코드 딕셔너리 형태로 해서 get함수를 써서 결과를 도출하는것도 괜찮은거 같다.
순서와 상관없이 결승선을 통과하는 1등마, 2두마,3두마를 머신러닝을 활용해서 예측해보려고 한다. 모델을 randomforest모델과 LogisticRegression모델을 사용하였다. 각 1등말,2두마,3두마별로 RF모델을 적용하고 각 1등말,2두마,3두마별로 LR모델을 적용했다. 각 데이터의 결과를 보면 과적합이 된것을 볼 수 있다. 가중치를 주어서 과적합을 해결하려고한다. 각각의 모델에 class_weight = 'balanced' 를 적용시켜 가중치를 주었다. https://scikit-learn.org/stable/modules/generated/sklearn.utils.class_weight.compute_class_weight.html sklearn.utils.class_weight.comp..
- 크롤링해온 데이터를 통해서 데이터탐색을 해보려고 한다. 크롤링을 통해서 내가 원하는 부분만을 가져와서 전처리할게 별로 없었다. -모든 변수들에 대해서 countplot을 그려서 분포를 확인했었고 -heatmap을 통해서 변수들의 연관성에 대해서 생각을 해보았다. -spss 카이제곱 검정을 통해서 변수들의 연관성 여부에 대해서 검정을 실시해보았고 기존 연구에서 유의미하다고 생각되는 변수들도 순위에 영향을 줄거라고 생각을 해보고 데이터 분석을 실시하였다. EDA를 통해 연관성있는 변수들에 대해서 따로 지정을 해주고 초단위를 정제해주었다. 그 다음 더미변수들을 생성하여 데이터에 merge merge하였고 전처리 된 데이터를 새롭게 csv형태로 만들어주었다.
경주마성적표를 크롤링해와서 각 말에 대한 정보가 없어서 한국마사회 말혈통정보사이트에서 필요한 데이터를 크롤링 해오려고 한다. http://studbook.kra.co.kr/html/info/ind/stud_s_mapil_retrieve.jsp 개별말정보조회 < 말정보 studbook.kra.co.kr 경주성적표에 있는 마명을 친 후에 개별말정보조회를 통해 필요한 데이터를 가져오려고 한다. 융무는 말 등급에 대해 크롤링을 했었다. 여기서 df는 전에 포스팅한 https://mjs1995.tistory.com/6 [Python][경마 데이터 분석]경마 렛츠런파크 크롤링 Xpath 교내 통계경진대회에서 자유주제로 데이터분석을 하게 되었다. 우리 팀의 주제는 머신러닝을 활용한 경주마 순위 예측이였다. 공공 데이..