융무의 기술블로그
article thumbnail
[tensorflow] iris data
Data Analysis/Tensorflow 2020. 1. 14. 16:46

- datasets에서 iris데이터를 불러오고 뉴럴네트워크에서 MLPClassfiier를 불러들어와 fit시켜보았다. - tensorflow에 keras에서 KerasClassifier를 불러들어와서 Sequetial을 이용해 모델을 만들어봤다. - 다중 분리이기 때문에 sparse 카테고리컬 크로스엔트로피를 사용했고 활성화함수는 렐루를 썼다. - KerasClassifier에 에폭을 5로해서 학습을 시키고 교차검증을 해보았다. - 머신러닝은 데이터가 많을수록 성능이 안올라가는데 딥러닝은 모델이 훨씬 더 복잡하기 때문에 더 성능을 올리수 있다.오버피팅이 생길수 있는데 이것을 막으려면 데이터를 늘려야한다. - 러닝커브를 그려보면 데이터가 요동쳐서 학습이 부족하다는 것을 알수있다. - 데이터가 충분하지 않..

article thumbnail
[tensorflow][cnn] image classification - mnist
Data Analysis/Tensorflow 2020. 1. 13. 23:28

#mnist - convolution을 쓰려면 reshape을 해야 하기 때문에 train과 test를 split 한 다음에 크기를 맞춰주었고 픽셀 값을 0~1사이로 정규화 하기 위해서 255로 나누어 주었다. - Sequential 모델을 만들어서 컨볼루셔널과 최대 풀링을 위한 MaxPool2D를 하였다. - 첫번째 CNN 네트워크 구조는 3*3 크기의 필터를 32개 가지는 것이고 여기서 padding 매개변수는 따로 지정해 주지 않았다.(주로 valid 패딩 아니면 same 패딩을 지정한다) 스타라이드 또한 지정해주지 않았다. - 활성화 함수는 relu 활성화 함수를 선택했고 최근 이미지 분야에서 자주 사용되고 있다. - 모델에 추가되는 첫 번째 층이므로 입력 크기를 input_shape 매개변수에 ..

article thumbnail
[tensorflow] image classification - fashion_mnist
Data Analysis/Tensorflow 2020. 1. 13. 22:44

#fashion_mnist - tensorflow keras에 있는 datasets에서 fashion_mnist 파일을 불러들어와서 image와 lable로 트레이닝 테스트 스플릿을 하고 이미지 데이터를 보기 위해서 matploblib에 있는 imshow를 사용하였다. -데이터를 255로 나눠 minmax화 시켰고 -기본적인 예측모델들은 데이터를 1차원으로 받아들이기 때문에 flatten 시켰다. -Sequential을 이용해서 모델을 만들고 첫번째 레이어는 전부 input_shape시킨다. 그리고 Sequential모델을 만드는 방법은 2가지 이다. - adam 옵티마이저를 사용해서 컴파일 하였고 지표로는 정확도를 사용했다. 그리고 다중 클래스 분류문제이므로 sparse_categorical_cross..

article thumbnail
[tensorflow] 이미지 데이터 불러오는 다양한 방법들
Data Analysis/Tensorflow 2020. 1. 13. 17:56

#mnist 데이터 사용하는 경우 중 matplotlib 사용 -tensorflow에 있는 keras에서 datasets의 데이터인 mnist를 불러와 -train,test 데이터를 지정해주고 -plt.imshow를 이용해서 데이터를 불러올수있다. cmap = 'gray' 로 지정해주면 흑백으로 바꿀수있다. #PIL 사용하는경우 -PIL의 image.open을 사용해서 이미지 데이터를 불러올수있다. #opencv를 이용하는 경우 -cv2.imread를 이용해서 이미지 데이터를 읽을 수 있고 opencv는 RGB채널 기반이다 -이걸 BGR채널로 바꾸려면 이렇게 split을 이용해서 바꿀수 있다. -각 이미지에는 필터를 적용할수있는데 BLUR는 흐릿한것 UnsharpMask는 더 선명해진다. - tensor..

article thumbnail
[김해시] 화재발생 예측모델 개발_모델링_tpot & 결과
Data Analysis 2019. 12. 16. 12:03

TPOT 같은 경우 Automated Machine Learning tool로써 머신러닝을 최적화 시켜준다. https://epistasislab.github.io/tpot/ Home - TPOT Consider TPOT your Data Science Assistant. TPOT is a Python Automated Machine Learning tool that optimizes machine learning pipelines using genetic programming. TPOT will automate the most tedious part of machine learning by intelligently exploring thousan epistasislab.github.io 이렇게 tpot..

article thumbnail
[김해시] 화재발생 예측모델 개발 _모델링_RFE
Data Analysis 2019. 12. 16. 11:48

- RFE를 통해서 영향력을 끼치는 변수들만 새롭게 종합해서 변수를 만들고 모델을 돌려봄 - 이런식으로 LGBMClassifier,XGBXGBClassifier에 적용해서 f1_score 값을 구한다. -github 주소 : https://github.com/mjs1995/Contest_Fire mjs1995/Contest_Fire 공모전 _ [김해시] 화재발생 예측모델 개발. Contribute to mjs1995/Contest_Fire development by creating an account on GitHub. github.com

article thumbnail
[김해시] 화재발생 예측모델 개발 _모델링_GridSearchCV, pipeline
Data Analysis 2019. 12. 15. 10:52

#GridSearchCV - f1 score값이 높은 3개의 모델 선택 -모델2를 선택 - 변수 중요도 그래프 #pipeline -github 주소 : https://github.com/mjs1995/Contest_Fire mjs1995/Contest_Fire 공모전 _ [김해시] 화재발생 예측모델 개발. Contribute to mjs1995/Contest_Fire development by creating an account on GitHub. github.com

article thumbnail
[김해시] 화재발생 예측모델 개발 _데이터 전처리 및 데이터 탐색
Data Analysis 2019. 12. 15. 10:44

- 대회 기간 : 2019.10.14 ~ 2019.12.13 #대회 소개 #데이터 전처리 및 데이터 탐색 #각 변수들 매핑하기 #파생 변수들 만들기 #결측치 대체하고 새로운 데이터 만들기