융무의 기술블로그
article thumbnail

스파크를 공부하면서 하둡에 관심이 가기 시작했고 실무로 배우는 빅데이터 기술의 책을 읽고 간단한 사이드 프로젝트를 진행하면서 하둡 에코시스템에 대해 디테일하게 알고 싶어 책을 선택하게 되었습니다.

- 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있음, 하둡이 나온 후 이를 기반으로 피그, 하이브, HBase, 스쿱, 플룸 등의 오픈 소스 기술이 등장했고, 이들을 모두 결합한 빅데이터 기술은 통칭하여 하둡 에코시스템이라고 부르게 되었음, 스파크의 등장으로 대용량 데이터를 저장하고 일괄 처리하는 수준에서 벗어나 머신러닝과 실시간 분석까지 아우르게 되었음 
- 이 책은 하둡의 핵심, 하둡 에코시스템 관련 프로젝트, 하둡 사례 연구를 다루고 있으며 이 책을 통해 각 기술의 핵심을 설명했고, 다른 기술과의 관계도 친절하게 설명하고 있다.
- 하둡 관련 프로젝트인 에이브로, 파케이, 플룸, 스쿱, 피그, 하이브, 크런치, 스파크, HBase, 주키퍼의 특징들에 대해 디테일하게 설명하고 있으며 관련 코드까지 예시로 보여주고 있어서 이해하는데 편했습니다. 책이 전반적인 난이도를 요하고 있으나 읽으면서 분산 시스템에 대한 전반적인 이해를 할 수 있어서 좋았습니다.

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!