데이터 엔지니어링 공부를 하면서 빅데이터에 대해 전반적인 구조를 익힐 수 있는 기술서로 추천하고 싶은 책이다.
- 데이터 분석가가 데이터에서 가치 있는 정보를 추출한다면 데이터 엔지니어는 시스템의 구축 및 운용, 자동화 등을 담당한다. 이 책에서 다루는 것은 데이터 활용 방법이 아니라 데이터 처리를 어떻게 시스템화하는가에 대한 문제로 데이터 처리과정에서 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 높게 취급하기 위한 기초를 먼저 설명하고 워크플로우 관리와 스트림 처리 등의 데이터 처리 기술을 자세히 알려주고 있다.
- 데이터 엔지니어 업무를 수행하면서 빅데이터의 기초 지식에 대해 많이 구글링을 하고 있습니다. 데이터 수집 시 데이터 전송 방식에 대해 , 스트림 처리와 배치 처리가 무엇인지, 분산 스토리지의 구성과 파이프라인의 구성, 수집된 데이터를 분산 데이터 처리하는 방법과 워크플로 관리하는 방법 등 책을 읽으면서 실무적으로 부족한 부분에 대해서 익힐 수 있어서 좋았습니다.
- 이 책을 읽으면서 회사에서의 빅데이터 플랫폼 구축이 어떻게 이루어졌는지 조금씩 이해하기 시작하였고 코드를 보면서 실무자들이 파이프라인 관리와 튜닝을 하려는 흔적을 알아볼 수 있어서 좋았습니다. 또한 팀 동료와 일을 할 때, 도메인이 다를 때 많은 도움이 될 거 같습니다.
- EMR 분산 처리스스템과 airflow를 활용한 워크플로 업무를 실제로 하다 보니까 분산 데이터 처리의 공통 플랫폼인 Hadoop부분에 대해서 흥미롭게 읽었습니다. 분산 시스템의 구성요소와 데이터 처리 및 엔진의 특징을 알아서 좋았고 웹이나 앱으로부터의 데이터 수집과 배송에 대해 전체적인 구조를 읽힐 수 있어서 좋았습니다.
- 빅데이터에 관심이 많다면 엔지니어링 측면에서 많은 도움이되어 추천하며 빅데이터의 전반적인 구성을 보고 배우며 앞으로의 로드맵을 그릴 때 많은 도움이 될 거 같습니다.
'책 리뷰' 카테고리의 다른 글
[wikidocs] 빅데이터 - 하둡, 하이브로 시작하기 (0) | 2022.02.23 |
---|---|
아마존 웹 서비스 AWS Discovery Book - 권영환 (1) | 2022.02.09 |
완벽한 IT 인프라 구축을 위한 Docker - Asa Shiho (0) | 2022.01.27 |
스파크를 다루는 기술 - 페타제제비치 (0) | 2022.01.20 |
[세바스찬 라시카] 머신 러닝 교과서 with 파이썬,사이킷런, 텐서플로 (0) | 2020.01.09 |