- 클라우드 기반의 데이터 엔지니어 운영 업무를 하면서 하둡 에코시스템에 대해 구축하는 것과 클라우드가 아니라 온프레미스 일 경우에 시스템 구축하는 법에 관해 관심을 가지다가 이 책을 접하게 되었습니다. 빅데이터 수집/적재, 처리/탐색, 분석/응용까지 스마트카의 빅데이터 파일럿 프로젝트를 단계별로 진행하면서 각 영역의 아키텍처와 활용 기술들에 대해 배울 수 있어서 좋았습니다. 또한 해당 책은 인프런에서 15일간의 빅데이터 파일럿 프로젝트 강의까지 있어서 공부하는 데 있어서 많은 도움이 되었습니다. - 빅데이터 프로젝트중 플랫폼 구축형 프로젝트, 빅데이터 분석 프로젝트, 빅데이터 운영 프로젝트에 관해서 배우며 빅데이터 R&R에 대해 생각을 하게 되는 계기가 되었고 스마트카라는 서비스와 도메인에 대해 설명을..
- 이 책은 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링, 그리고 머신러닝, 그래프에 이르기까지 다양한 내용을 종합적으로 잘 설명하고 있습니다. 스파크의 기본부터 심화까지 책을 읽고 스파크에 대해 더 깊게 알게 되었으며 스파크에 대해 어느 정도 알고 있는 분이라면 재밌어서 금방 읽게 될 것입니다. 해당 코드는 저자의 깃허브에서도 확인할 수 있으며 Scala와 Pyspark 코드를 통해서 이해하는데 많은 도움이 되었습니다. - 책의 유형은 크게 스파크에 대해서, 구조적 API로 Dataset, DataFrame, SQL과 구조적 스트리밍에 관하여 자세하게 설명하고 있고 스파크 튜닝부터 모니터링과 디버깅까지 많은 내용을 담고 있어서 스파크를 공부하는데 있어서 많은 도움이 되었습니다. 또한 스파크..
데이터 엔지니어에 대해서 공부를 하다가 빅데이터를 지탱하는 기술을 읽고 나서 데이터 중심 애플리케이션 설계 책을 읽었습니다. 본 책은 내용에 깊이가 있기 때문에 읽는데 어려움이 있었지만 엔지니어로써 배우는데 많은 도움이 되었습니다. - 데이터 처리의 기본기를 다지기에 좋은 참고서로 데이터 모델 설계, 질의 언어 , 복제, 트랜잭션, 일괄 처리, 스트림 처리 등 데이터 처리의 다양한 측면을 다루고 있다. 이 책의 목적은 다양하고 빠르게 변하는 데이터 저장과 처리 기술 분야를 탐험하는데 도움을 준다. 책의 서문에는 다음과 같은 독자에게 추천하고 있다. 데이터 시스템을 확장성 있게 만드는 방법을 알고 싶은 사람(웹 또는 모바일 앱이 수백만 명의 사용자를 감당할 수 있게 하고 싶다) 애플리케이션이 고가용성을 갖..
이 책은 리트코드 88가지 알고리즘 문제와 7가지의 카카오 기출문제 알고리즘 문제로 구성되어 있으며 해당 알고리즘 문제를 다양한 풀이로 풀어 설명을 하고 있어서 알고리즘 공부를 하는 데 있어서 많은 도움이 되었습니다. 파이썬과 선형 자료구조, 비선형 자료구조, 알고리즘에 대해 개념과 사례를 들어 비전공자도 이해하기 쉽게 설명하는 게 인상적이었습니다. 이 책의 주요 특징은 알고리즘 코딩 인터뷰 문제 풀이, 그림으로 쉽게 이해하는 알고리즘 원리, 파이썬 고급 활용, 취업, 이직, 채용 가이드로 나눠질 수 있으며 저자가 수학과 알고리즘을 공부하는 이유는 튼튼한 기본(수학)을 바탕으로 논리적 사고(수학적 사고)를 거쳐 문제 해결(프로그래밍)을 하기 위해서이다. 이 책은 파이썬을 잘 다루고 싶은 사람들, 알고리즘..
스파크에 대해 공부를 하던 중에 전체적인 구성에 대해 잘 정리된 위키북스가 있어서 서평을 쓰게 되었습니다. https://wikidocs.net/book/2350 빅데이터 - 스칼라(scala), 스파크(spark)로 시작하기 현재 빅데이터 분석기술 중에서 가장 주목 받는 기술은 아파치 스파크(spark)입니다. **스파크**는 인메모리(In-Memory) 기반의 처리로 하둡의 맵리듀스에 ... wikidocs.net 스파크를 이용하여 ELT 및 튜닝을 하면서 스파크에 대한 공부를 하기 위해서 책을 읽게 되었다. 이 책은 스칼라와 스파크에 대한 개념을 체계적으로 설명하고 있으며 코드를 활용한 예시를 통해서 경험할 수 있다는게 매력적이였다. 하둡 에코시스템 중 스칼라, 스파크에 대한 개념에 대해 정리가 필..
하둡과 Yarn 및 클러스터에 관해 구글링을 하던 중 유용한 wikidocs가 있어서 리뷰를 진행하였습니다. 해당 wikidocs의 주소는 아래와 같습니다. https://wikidocs.net/book/2203 빅데이터 - 하둡, 하이브로 시작하기 이 책은 하둡을 처음 시작하는 사람들을 대상으로 작성하였습니다. **하둡**은 빅데이터 기술의 시작점입니다. 하둡이 맵리듀스와 HDFS 기술을 소개하면서 빅데이터를 ... wikidocs.net 빅데이터에 수집, 정제, 적재, 분석, 시각화의 여러 단계에 관해서 관련 프레임워크나 오픈소스를 잘 설명하고 있으며 하둡과 Yarn에 대해 많은 정보를 얻어서 유익하였습니다. 빅데이터 에코시스템에 관해서 관련 기술과 특징들에 대해 전반적인 구조를 알 수 있으며 하둡과..
AWS에서 애플리케이션 EC2, EMR, Athena 등 AWS 관련해서 데이터 엔지니어 업무를 수행하고 있는데 운영을 하는 데 있어서 구축 과정과 실제로 경험을 해보고자 책을 읽게 되었습니다. 클라우드에 대해 더 자세하게 알 수 있으며 특히 AWS의 다양한 서비스를 실습을 통해 할 수 있다는 점이 좋았고 요금 관련해서 자세하게 설명이 되어있어서 부담을 가질 필요가 없었습니다. AWS CCP 준비를 할때 백서와 함께 읽었는데 많은 도움이 되었던 거 같습니다. 각 용어의 정의와 개념에 대해 이해하기 편했고 클라우드나 인프라적인 측면에서 스킬업이 많이 되었습니다. AWS에서 서버를 구축해서 다양한 서비스의 기초를 익히는데 도움이 되었던거 같습니다. 책을 읽으면서 이 책을 읽게 된 이유가 너무 와닿았던 에필로..
최근에 클라우드가 부상하면서 도커와 쿠버네티스에 대한 수요가 증가하여 호기심이 생겼고 데이터엔지니어 업무르 하는데 있어서 인프라 기초 지식이 필요로 하여 책을 읽게 되었습니다. - 시스템과 인프라의 기초 지식, 클라우드와 온프레미스의 차이점이 무엇인지 특징들은 무엇인지, 컨테이너 기술과 운용 관리하는 법에 대해, 도커를 직접 실습을 하면서 산출물을 확인할 수 있는게 매력적이였습니다. - Docker 환경에서 동일 호스트상에 Docker를 설치하고, 그 위에서 몇 개의 컨테이너를 가동시켜 서버를 작동, 이미지의 작성이나 컨테이너의 시작 등은 호스트 머신에 설치된 Docker가 수행하고, 여러 개의 Docker를 일원 관리할 때는 Docker Compose를 사용하여 애플리케이션의 실행 환경을 구축하면서 도..