- 이 책은 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링, 그리고 머신러닝, 그래프에 이르기까지 다양한 내용을 종합적으로 잘 설명하고 있습니다. 스파크의 기본부터 심화까지 책을 읽고 스파크에 대해 더 깊게 알게 되었으며 스파크에 대해 어느 정도 알고 있는 분이라면 재밌어서 금방 읽게 될 것입니다. 해당 코드는 저자의 깃허브에서도 확인할 수 있으며 Scala와 Pyspark 코드를 통해서 이해하는데 많은 도움이 되었습니다.
- 책의 유형은 크게 스파크에 대해서, 구조적 API로 Dataset, DataFrame, SQL과 구조적 스트리밍에 관하여 자세하게 설명하고 있고 스파크 튜닝부터 모니터링과 디버깅까지 많은 내용을 담고 있어서 스파크를 공부하는데 있어서 많은 도움이 되었습니다. 또한 스파크가 지원하는 클러스터 매니저는 스탠드 얼론 클러스터 매니저, 아파치 메소스, 하둡 YARN이 있는데 각각의 특징과 고려사항에 대해 알 수 있어서 좋았습니다.
- 디버깅 및 스파크 응급 처치 부분에서 스파크를 통해 일어날 수 있는 다양한 트러블슈팅 사례에 관해 배울 수 있었으며 실제 운영했을때 비슷한 사례와 잠재적 대응법을 알게 되어서 좋았습니다. 뒷부분에서는 스파크를 활용한 통계, 머신러닝, 딥러닝까지 다루고 있어 데이터 엔지니어링뿐만 아니라 데이터 분석 쪽에서도 유익한 내용을 담고 있습니다.
- ELT파이프라인을 스파크를 통해서 운영해본 경험이 있는데 실무에서 쓰였던 스파크 튜닝 방식이나 스파크 문법 같은 부분을 다시 보게 되는 계기가 되었고 비슷한 장애 대응 시 어떠한 차이가 있는지 비교하면서 읽었던 거 같습니다. 데이터 엔지니어뿐만 아니라 분석 쪽에서도 업무적으로 스파크를 학습하는 데 많은 도움이 될 거 같습니다.
'책 리뷰' 카테고리의 다른 글
Apache Airflow 기반의 데이터 파이프라인 - 바스 하렌슬락 (0) | 2022.07.25 |
---|---|
실무로 배우는 빅데이터 기술 - 김강원 (0) | 2022.05.11 |
데이터 중심 애플리케이션 설계 - 마틴 클레프만 (1) | 2022.03.30 |
파이썬 알고리즘 인터뷰 - 박상길 (0) | 2022.03.20 |
[wikidocs] 빅데이터 - 스칼라,스파크로 시작하기 (0) | 2022.03.08 |