2021년 1년 차 주니어 데이터 사이언티스트로 성장하기까지 있었던 일들을 정리하는 글입니다.
제 자신을 돌아보는 글이자 새롭게 시작하는 주니어들에게 도움을 주고자 적는 글입니다.
현재는 데이터 엔지니어링을 공부하면서 역량을 키우고 준비하고 있습니다.
1. 첫취업까지
- 교육 수료
- 취업을 하기 전까지 응용통계가 기본 base에 python 및 데이터 분석과 ML, DL을 독한은 2018년부터 했습니다. 단순히 데이터 경진대회를 참가하기 위해서 데이터 크롤링을 시작하면서 python에 흥미를 느껴 하나씩 공부했던 거 같습니다.
- 전공과목은 적성에 잘 맞았고 통계가 재밌어서 막 학기까지는 다른 준비 없이 그저 강의만 보고 운동만 했던 거 같습니다. 막 학기가 끝나고 취업에 대한 고민과 함께 유예를 시작하면서 진로를 잡기 시작했습니다.
- 아무 스펙이 없었던 때라 자소서도 써본 적 없고 면접 경험도 없었지만 데이터에 대한 평소의 열정을 교육기관에서 긍정적으로 봐주었던 거 같습니다.
- 2019년에는 정보통신산업진흥원에서 주관하는 AI 기술 활용(고급) 과정을 수료하면서 인공지능의 기본 개념을 배우며 머신러닝과 딥러닝, OpenCV 활용과
고급 CNN과 Tensor flow를 배우면서 인공 지능 기반의 시각 기술에 대해 배웠습니다. 이때 당시 Tensor flow가 재밌어서 이것저것 다양하게 시도를 해보면서 공부를 했던 거 같습니다. - 2020년에는 데이터 청년 캠퍼스(연세대)를 수료하였고 데이터베이스와 연동한 분석 학습, 머신러닝과 딥러닝 기법을 활용한 실전 KDD 프로세스 분석 실습 교육을 받았습니다. 특히 여기서 만났던 팀원분들과는 아직도 연락을 하면서 좋은 커뮤니티를 가지고 있고 여기서 했던 프로젝트가 너무나 큰 도움이 되었습니다.
- 구글 코리아에서 주관하는 2021년에는 구글 머신러닝 부트캠프를 수료하면서 머신러닝과 딥러닝에 대해 배우며 Tensor flow 역량을 키웠던 거 같습니다.
- 자격증
- 취업을 하기까지 자격증은 ADsP, SQLD, 사회조사분석사 2급, Tensorflow Developer Certificate, OPIc을 준비해놨습니다.
- 수상
- 교외로는 한국데이터산업진흥원장 주관 2020년 빅데이터 청년인재 양성 사업 프로젝트 최우수상을 받았습니다.
- 교내로는 통계경진대회 장려상을 수상하였습니다.
- 논문
- 머신러닝 엔지니어 역할을 수행하여 KCI 공동저자로 논문을 게재하였습니다.
- 프로젝트
- 프로젝트 경험으로는 4개를 포트폴리오에서 사용하였으며 매 프로젝트마다 기간, 담당 역할, 프로젝트 기여도, 활용 데이터, 사용 언어/Tool 및 알고리즘, 프로젝트 내용을 정리해 두었습니다.
- 기타
- 백준, 프로그래머스, HackerRank, Leetcode 등에서 Python과 SQL문제를 풀며 코딩 테스트 준비를 했습니다.
- 캐글 대회를 참가 및 필사를 하며 역량을 키웠습니다.
- 연초에 1일 1 커밋을 계획하며 꾸준히 공부하는 자세를 가지려고 했습니다.
- 코딩 테스트를 준비하면서 자소서 템플릿을 가꾸고 인적성 준비 또한 같이 진행하였습니다. 따로 스터디는 하지 않았고 주로 면접이 끝나면 그때 받았던 질문 리스트를 정리하는 습관을 가졌습니다.
2. 사회생활 시작
- 직무로 인해 고민도 했었지만 지금은 원하던 직무를 하면서 역량을 키우고 있습니다. 첫 회사다 보니 배우는 것도 많았고 직무에 대한 많은 생각도 하게 되었습니다. 그동안 AI, ML, DL 등 다양한 스킬들을 배워오면서 막연히 데이터 사이언티스트가 돼야지 하며 로드맵을 그리면서 역량을 키워왔던 것과는 다르게 현업은 조금 달랐던 거 같습니다.
- 데이터 분석가 vs 데이터 엔지니어 vs 머신러닝 엔지니어
- 회사 프로세스에 적응해갈 때쯤 상권분석 플젝을 하면서 공간정보 데이터 전처리에서 부터 머신러닝 모델 설계 및 BI 개발까지 수행을 하였고 단순히 생각하던 것을 퍼즐에 조각을 맞추듯 코딩을 하는 게 좋았습니다. 상권분석을 하면서 깨닫게 된 점과 퇴근 후 개인적으로 이것저것 많이 시도를 해보며 재밌었던 거 같습니다.
- GIS 데이터에 대해서 머신러닝 엔지니어로써 프로젝트 경험과 논문 경험이 있어서 이때 당시 상권분석을 플젝을 수행하는 데 있어서 많은 도움이 되었습니다. 도메인에 대한 중요성에 대해 많이 깨닫게 되었습니다.
- GIS 데이터는 QGIS 및 shap 파일 전처리 작업을 하였고 카카오 지도 API를 활용하여 파생변수를 생성하였고 harversine라이브러리 및 geometry 전처리 등 다양한 방법을 시도해봤습니다.
- 지도 시각화에 관련해서는 다양한 오픈소스를 시도해 보았고 python folium, dash, plotly, pydeck 라이브러리를 이용한 지도 시각화(IconLayer, PolygonLayer, ScatterplotLayer), Tableau를 통한 지도 시각화를 경험해보면서 결과물의 고도화를 위해 노력했던 거 같습니다.
- 대시보드 같은 경우에는 dash와 streamlit에 대해 공부를 하였고 streamlit의 편리성과 웹과 같은 형식으로 만들 수 있다는 점 그리고 해당 주소를 입력하면 위치가 어딘지 그리고 ML을 이용한 해당 위치의 등급이 어떤지 지도 위에 반응형 그래프로 보여줄 수 있다는 점에서 유용성면에서 좋았던 거 같습니다.
- 유통 쪽 어플 데이터를 관리 및 운영하는 프로젝트를 진행하면서 데이터 분석보단 데이터 엔지니어 쪽에 가까운 역할을 수행하고 있습니다. 데이터 엔지니어링을 수행하면서 배우는 것도 많고 다양한 분야를 공부한다는 게 재미있는 거 같습니다. 주로 Pyspark, AWS EMR, Athena, Airflow 등을 이용하여 데이터 ETL, 파이프라인 관리 및 운영을 하고 있습니다.
- 현업에서 데이터를 직접 겪어보면서 앞으로 나아가야 할 방향에 대해 깨닫게 되며 공부방향이 잡힌 건 좋았습니다.
- 현업에서 요구하는 사항을 정리를 하며 직접 얘기를 통해서 맞춰가는 커뮤니케이션의 중요성에 대해 깨닫게 되었습니다.
- AWS의 다양한 라이브러리 등을 공부하면서 하나씩 스킬업을 해나갔고 Airflow강의 및 공홈을 통해서 공부를 하고 있습니다. spark는 그전에 datacamp나 관련 강의 등을 보면서 역량을 키워왔는데 현업에서 실제 ETL 프로세스를 수행하다 보니 pyspark와 SQL 역량이 많이 늘어가는 거 같습니다.
- 여러 개발자와의 Git으로 하는 협업 및 버전 관리에 대해 중요성을 많이 느끼게 되었고 관련 스킬업을 했습니다.
- 회사 프로세스에 적응해갈 때쯤 상권분석 플젝을 하면서 공간정보 데이터 전처리에서 부터 머신러닝 모델 설계 및 BI 개발까지 수행을 하였고 단순히 생각하던 것을 퍼즐에 조각을 맞추듯 코딩을 하는 게 좋았습니다. 상권분석을 하면서 깨닫게 된 점과 퇴근 후 개인적으로 이것저것 많이 시도를 해보며 재밌었던 거 같습니다.
- 회사를 다니면서 수강한 것들
- 퇴근 후에 매달 인강 및 관심 스킬 공식 홈페이지에서 공부를 하며 정리해가는 습관을 가지려고 하고 있습니다. 강의들은 인프런, 패스트캠퍼스, 코드 잇, 유데미 등등 다양하게 듣는 거 같습니다.
- 머신 러닝 실전 추천 시스템(2021.6.21)
- 파이썬 알고리즘의 정석(2021.8.26)
- 객체 지향 프로그래밍(2021.09.29)
- Git으로 배우는 버전 관리(2021.10.13)
- 쉽게 시작하는 쿠버네티스(2021.10.6)
- 리눅스 환경구성 기초(2021.10.11)
- 파이썬으로 시작하는 데이터 분석(2021.11.03)
- 빅데이터 개발자를 위한 아파치 스파크 프로그래밍(2021.11)
- 올인원 패키지 : 머신러닝과 데이터 분석 A TO Z(2021.12)
- 캐글 문제로 배우는 데이터 분석 (2021.12)
- 도커(Docker)로 시작하는 가상화&클라우드 컴퓨팅(2021.12)
- 분석 관련 교육 수료 : 태블로 부트캠프 수료(2021.08~2021.10)
- 퇴근 후에 매달 인강 및 관심 스킬 공식 홈페이지에서 공부를 하며 정리해가는 습관을 가지려고 하고 있습니다. 강의들은 인프런, 패스트캠퍼스, 코드 잇, 유데미 등등 다양하게 듣는 거 같습니다.
- 회사를 다니면서 느낀 점은 업무 외에 개인 시간이 많이 부족하다는 점이었습니다. 업무시간에 개인역량을 최대한 활용하여 주어진 업무를 끝내는데 초점이 맞춰져 있다 보니 부족한 역량이 있으면 개인 퇴근시간에 주로 공부를 하게 되는 거 같습니다. 9 to 6가 기본이지만 관심 있는 분야에 대해서 공부를 하기에는 시간이 부족하고 또한 취미생활을 하기에는 많이 부족하다고 느끼고 있습니다. 이를 해결하고자 평균적으로 평일에 5시 50분에 기상하여 새벽 운동을 간 다음 출근 준비를 하는 거 같습니다. 퇴근 후에는 집에 와서 서적을 읽거나 코딩을 하며 시간을 보내고 최소 30분은 OTT 서비스를 시청하며 하루를 마무리하는 거 같습니다.
3. 1일 1커밋
- 2021년이 되면서 매일 꾸준히 운동하는 것과 1일 1 커밋으로 매일 하나라도 기록하는 습관을 갖는 거였습니다. 1일 1 커밋은 주로 공부하면서 배운 내용, 정리해놓고 나중에 보면 도움이 될만한 것들 위주로 커밋을 하였습니다.
- 잔디가 밋밋한 거 코테를 하면서 하루에 너무 많은 커밋을 한 게 문제였습니다. 현업에 와서 유지보수를 하면 커밋을 어떻게 해야 할지 그리고 정리를 어떻게 해야할지 깨닫게 되어서 2022년에는 깃허브를 정리하는 시간을 차츰 가지려고 계획 중입니다.
- 커밋을 위한 커밋이 아닌 개인의 스킬업을 위한 커밋을 하자는 다짐을 매일 가지고 있습니다.
4. 독서
- 매달 월급을 받으면 책을 1권씩 사서 읽으려고 노력 중이며 필요한 개념들에 대해서는 따로 기록을 하려고 하고 있습니다.
- 관심 있는 논문을 읽고 페이퍼 리뷰를 진행하였지만 앞으로는 조금 더 체계적으로 작성을 하려고 생각 중입니다.
5. 취미
- 16년도에 턱걸이를 시작하게 되면서 6년 차 운동을 하고 있습니다. 처음 2개를 했지만 지금은 35개를 하고 크로스핏 대회에 나갈 정도로 많이 늘었습니다. 꾸준히 하게 된다면 못하는 건 없다고 생각하고 있습니다. 새해에는 미라클 모닝을 꾸준히 하며 주 5회 이상 운동을 지켜나가고자 다짐을 하고 있습니다. 그리고 코로나가 잠잠해지면 다시 한번 대회에 참가하여 성장을 확인하려고 합니다.
6. 성장
- 2022년에는 스킬적인 측면뿐만 아니라 관련 개념과 원리에 대해서 한 층 더 깊이 있게 바라보도록 노력하려고 합니다. 데이터 분석과 데이터 엔지니어링이라는 측면에서 어디에 더 중점을 두고 공부를 할 것인지에 대한 많은 생각을 하게 되었고 새해에도 꾸준히 기록하는 습관을 가지려고 노력 중입니다. 매달 월급을 받고 책과 인강을 사려고 계획하고 있습니다.
- 데이터를 다루는 업을 하는 사람인데 python과 sql에 대해서 가장 기본이 되는 코테에 대해 많이 부족하다고 생각하여 꾸준히 관심을 가지며 푸는 연습을 하려고 합니다.
- 특정 영역에 대해서 관련된 논문을 꾸준히 읽고 페이퍼 리뷰를 하려는 습관을 가지려고 하고 있습니다.
- 관련 IT사람들을 만나 말하는 연습을 조금 더 해보려고 합니다. 또한 스터디를 참가하여 스터디장 및 스터디원으로서 역할을 수행하려고 계획하고 있습니다.
- 기술 블로그를 조금 더 활용해야겠다는 생각을 하게 되었습니다. 기술 블로그는 특정 toy 프로젝트를 진행하는 게 아닌 현업에서 보고 느낀 점, 에러 해결점, 관심 있는 영역에 대해 배우고 시도해본 것 등 다양한 영역에 대해 정리를 하려고 합니다.
'About me' 카테고리의 다른 글
2022년 2년차 주니어 회고록 (0) | 2023.01.01 |
---|---|
[온라인강의들] python 독학했던 온라인강의들 (0) | 2019.12.01 |