실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_optimization.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 최적화 Spark 에는 최적화 기능들(optimizer) 을 갖추고 있습니다. 1.x 버전에서는 Rule-Based Optimizer만 ..
실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. RDD 사용 자제 Spark 작업의 경우 RDD보다 Dataset/DataFrame을 Dataset으로 사용하는 것이 좋습니다. DataFrame에는 Spark 워크로드의 성능을 개선하기 위한 여러 최적화 모듈이 포함되어 있습니다. PySpark 사용에서 Dataset의 RDD를 통한 DataFrame은 PySpark 애플리케이션에서 지원되지 않습니다. RDD를 사용하면 스파크가 최적화 기술을 적용하는 방법을 모르기 때문에 성능 문제가 직접 발생하고 RDD는 클러스터에 분산(재파티션 및 셔플링)할 때 데이터를 직렬화 및 역직렬화합니다.. 직렬화 및 역직렬화는 Spark 애플리케이션 또는 모든 분산 시스템에서..
- 이 책은 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링, 그리고 머신러닝, 그래프에 이르기까지 다양한 내용을 종합적으로 잘 설명하고 있습니다. 스파크의 기본부터 심화까지 책을 읽고 스파크에 대해 더 깊게 알게 되었으며 스파크에 대해 어느 정도 알고 있는 분이라면 재밌어서 금방 읽게 될 것입니다. 해당 코드는 저자의 깃허브에서도 확인할 수 있으며 Scala와 Pyspark 코드를 통해서 이해하는데 많은 도움이 되었습니다. - 책의 유형은 크게 스파크에 대해서, 구조적 API로 Dataset, DataFrame, SQL과 구조적 스트리밍에 관하여 자세하게 설명하고 있고 스파크 튜닝부터 모니터링과 디버깅까지 많은 내용을 담고 있어서 스파크를 공부하는데 있어서 많은 도움이 되었습니다. 또한 스파크..
스파크에 대해 공부를 하던 중에 전체적인 구성에 대해 잘 정리된 위키북스가 있어서 서평을 쓰게 되었습니다. https://wikidocs.net/book/2350 빅데이터 - 스칼라(scala), 스파크(spark)로 시작하기 현재 빅데이터 분석기술 중에서 가장 주목 받는 기술은 아파치 스파크(spark)입니다. **스파크**는 인메모리(In-Memory) 기반의 처리로 하둡의 맵리듀스에 ... wikidocs.net 스파크를 이용하여 ELT 및 튜닝을 하면서 스파크에 대한 공부를 하기 위해서 책을 읽게 되었다. 이 책은 스칼라와 스파크에 대한 개념을 체계적으로 설명하고 있으며 코드를 활용한 예시를 통해서 경험할 수 있다는게 매력적이였다. 하둡 에코시스템 중 스칼라, 스파크에 대한 개념에 대해 정리가 필..
스파크를 공부하면서 스파크 완벽 가이드를 본격적으로 읽기 전에 실무에서 도움이 되는 책을 고민하다가 스파크를 다루는 기술을 사서 읽었다. - 아파치 스파크에서부터 스파크의 기초, 스파크 애플리케이션, 스파크 API, 스파크 SQL, 스파크 스트리밍, 스파크 ML,DL,GraphX, 스파크옵스, 스파크 클러스터, YARN 클러스터, 메소스 클러스터 등 스파크에 관한 전반적인 개념과 원리에 대해 배울 수 있어서 좋았고 각 장마다 실습코드가 있어서 많은 도움이 되었던거 같았다 - 실무에서 쓰던 YARN 클러스터나, 스파크 SQL, 배치에 대해서 전체적인 틀을 잡아줘서 좋았고 앞으로의 공부 방향에 대해 다듬을 수 있어서 좋았다. - 이 책은 다양한 스파크 기능에 대한 유용한 지식을 전달하고 있으며 코드 설명을 ..