스파크를 공부하면서 하둡에 관심이 가기 시작했고 실무로 배우는 빅데이터 기술의 책을 읽고 간단한 사이드 프로젝트를 진행하면서 하둡 에코시스템에 대해 디테일하게 알고 싶어 책을 선택하게 되었습니다.
- 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있음, 하둡이 나온 후 이를 기반으로 피그, 하이브, HBase, 스쿱, 플룸 등의 오픈 소스 기술이 등장했고, 이들을 모두 결합한 빅데이터 기술은 통칭하여 하둡 에코시스템이라고 부르게 되었음, 스파크의 등장으로 대용량 데이터를 저장하고 일괄 처리하는 수준에서 벗어나 머신러닝과 실시간 분석까지 아우르게 되었음
- 이 책은 하둡의 핵심, 하둡 에코시스템 관련 프로젝트, 하둡 사례 연구를 다루고 있으며 이 책을 통해 각 기술의 핵심을 설명했고, 다른 기술과의 관계도 친절하게 설명하고 있다.
- 하둡 관련 프로젝트인 에이브로, 파케이, 플룸, 스쿱, 피그, 하이브, 크런치, 스파크, HBase, 주키퍼의 특징들에 대해 디테일하게 설명하고 있으며 관련 코드까지 예시로 보여주고 있어서 이해하는데 편했습니다. 책이 전반적인 난이도를 요하고 있으나 읽으면서 분산 시스템에 대한 전반적인 이해를 할 수 있어서 좋았습니다.
'책 리뷰' 카테고리의 다른 글
잘될 수 밖에 없는 너에게 - 최서영 (0) | 2022.09.26 |
---|---|
구글 엔지니어는 이렇게 일한다 - 톰 맨쉬렉 (0) | 2022.09.25 |
데이터 파이프라인 핵심 가이드 - 제임스 댄스모어 (0) | 2022.08.01 |
내가 같이 뛰어내려 줄게 - 씨씨코 (0) | 2022.07.26 |
Apache Airflow 기반의 데이터 파이프라인 - 바스 하렌슬락 (0) | 2022.07.25 |