#다른사람의 코드 공식처럼 절대값을 써서 코드를 만드는 경우도 있다.
#다른사람의 코드 한줄로 간단한게 코드를 짜는게 아직 공부가 더 필요한거 같다. or의 사용법이 괜찮은거 같다.
#다른 사람의 코드 if문이 더 실용적인거 같다. 연속적인 수니까 생각을 조금 더 해보도록하자.
#다른사람의 코드 for문을 안써도 바로 나올수있는건데 생각을 조금더 해보도록 하자
#다른사람의 코드 딕셔너리 형태로 해서 get함수를 써서 결과를 도출하는것도 괜찮은거 같다.
- Groceries 데이터는 현지 식료품 점에서 1달동안의 실제 판매 시점 거래 데이터를 의미 - 9835 행과 169 열로 이루어져 있다. EDA결과 whole milk와 other vegetables가 제일 빈번한 것을 볼 수 있다. -other vegetables 와 whole milk의 지지도가 0.07이상으로 제일 크다. -신뢰도를 0.01로 하여 조건을 만족하는 아이탬의 개수가 245개이다. > rule rule set of 62 rules > inspect(rule) > rule rule_rolls rule_rolls set of 18 rules > inspect(rule_rolls) -18개의 아이탬 개수가 나왔으며 lift를 기준으로 정렬하였을 때 sausage와 soda를 살 때 ro..
순서와 상관없이 결승선을 통과하는 1등마, 2두마,3두마를 머신러닝을 활용해서 예측해보려고 한다. 모델을 randomforest모델과 LogisticRegression모델을 사용하였다. 각 1등말,2두마,3두마별로 RF모델을 적용하고 각 1등말,2두마,3두마별로 LR모델을 적용했다. 각 데이터의 결과를 보면 과적합이 된것을 볼 수 있다. 가중치를 주어서 과적합을 해결하려고한다. 각각의 모델에 class_weight = 'balanced' 를 적용시켜 가중치를 주었다. https://scikit-learn.org/stable/modules/generated/sklearn.utils.class_weight.compute_class_weight.html sklearn.utils.class_weight.comp..
- 크롤링해온 데이터를 통해서 데이터탐색을 해보려고 한다. 크롤링을 통해서 내가 원하는 부분만을 가져와서 전처리할게 별로 없었다. -모든 변수들에 대해서 countplot을 그려서 분포를 확인했었고 -heatmap을 통해서 변수들의 연관성에 대해서 생각을 해보았다. -spss 카이제곱 검정을 통해서 변수들의 연관성 여부에 대해서 검정을 실시해보았고 기존 연구에서 유의미하다고 생각되는 변수들도 순위에 영향을 줄거라고 생각을 해보고 데이터 분석을 실시하였다. EDA를 통해 연관성있는 변수들에 대해서 따로 지정을 해주고 초단위를 정제해주었다. 그 다음 더미변수들을 생성하여 데이터에 merge merge하였고 전처리 된 데이터를 새롭게 csv형태로 만들어주었다.