융무의 기술블로그
article thumbnail

데이터 엔지니어링 공부를 하면서 빅데이터에 대해 전반적인 구조를 익힐 수 있는 기술서로 추천하고 싶은 책이다.

 

- 데이터 분석가가 데이터에서 가치 있는 정보를 추출한다면 데이터 엔지니어는 시스템의 구축 및 운용, 자동화 등을 담당한다. 이 책에서 다루는 것은 데이터 활용 방법이 아니라 데이터 처리를 어떻게 시스템화하는가에 대한 문제로 데이터 처리과정에서 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 높게 취급하기 위한 기초를 먼저 설명하고 워크플로우 관리와 스트림 처리 등의 데이터 처리 기술을 자세히 알려주고 있다.

 

- 데이터 엔지니어 업무를 수행하면서 빅데이터의 기초 지식에 대해 많이 구글링을 하고 있습니다. 데이터 수집 시 데이터 전송 방식에 대해 , 스트림 처리와 배치 처리가 무엇인지, 분산 스토리지의 구성과 파이프라인의 구성, 수집된 데이터를 분산 데이터 처리하는 방법과 워크플로 관리하는 방법 등 책을 읽으면서 실무적으로 부족한 부분에 대해서 익힐 수 있어서 좋았습니다.

 

- 이 책을 읽으면서 회사에서의 빅데이터 플랫폼 구축이 어떻게 이루어졌는지 조금씩 이해하기 시작하였고 코드를 보면서 실무자들이 파이프라인 관리와 튜닝을 하려는 흔적을 알아볼 수 있어서 좋았습니다. 또한 팀 동료와 일을 할 때, 도메인이 다를 때 많은 도움이 될 거 같습니다.

 

- EMR 분산 처리스스템과 airflow를 활용한 워크플로 업무를 실제로 하다 보니까 분산 데이터 처리의 공통 플랫폼인 Hadoop부분에 대해서 흥미롭게 읽었습니다. 분산 시스템의 구성요소와 데이터 처리 및 엔진의 특징을 알아서 좋았고 웹이나 앱으로부터의 데이터 수집과 배송에 대해 전체적인 구조를 읽힐 수 있어서 좋았습니다.

 

- 빅데이터에 관심이 많다면 엔지니어링 측면에서 많은 도움이되어 추천하며 빅데이터의 전반적인 구성을 보고 배우며 앞으로의 로드맵을 그릴 때 많은 도움이 될 거 같습니다.

 

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!