융무의 기술블로그
article thumbnail
spark 개요
Data Engeneering/spark 2023. 2. 1. 00:07

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 스파크 워크로드 스파크는 하둡 맵리듀스보다 최대 100배 더 빠르다고 합니다. 왜냐하면 스파크는 하드 드라이브로 읽고 쓰는 대신에 인 메모리(In-Me..

article thumbnail
spark join and shuffle
Data Engeneering/spark 2023. 1. 26. 23:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_join.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 스파크의 조인 수행 방식 노드 간 네트워크 통신 전략으로 스파크는 조인 시 두 가지 클러스터 통신 방식을 활용합니다. 노드별 연산 전략 전체 노드간 통..

article thumbnail
spark 클러스터 매니저
Data Engeneering/spark 2023. 1. 25. 22:42

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_cluster_manager.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Spark 클러스터 스파크는 마스터/슬레이브 구조를 사용하며, 중앙 조정자인 드라이버와 여러 분산 작업 노드인 익스큐터로 구성됩니다..

article thumbnail
spark yarn
Data Engeneering/spark 2023. 1. 25. 22:36

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_yarn.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com YARN YARN을 사용하면 그래프 처리, 대화형 처리, 스트림 처리, 일괄 처리와 같은 다양한 데이터 처리 방법을 통해 HDFS에 저장된 데이터를 실..

article thumbnail
trino
Data Engeneering/presto 2023. 1. 24. 23:26

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/trino_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Trino 2012년 Martin Traverso , David Phillips, Dain Sundstrom 및 Eric Hwang은 Facebook ..

article thumbnail
Presto
Data Engeneering/presto 2023. 1. 24. 22:58

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/presto_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Presto Presto는 기가바이트에서 페타바이트에 이르는 다양한 데이터 소스에 대해 빠른 분석 쿼리를 실행하기 위한 오픈 소스 분산 SQL 엔진입..

article thumbnail
airflow 아키텍처
Data Engeneering/workflow 2023. 1. 24. 12:52

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/workflow/airflow_architecture.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 아키텍처 Airflow는 크게 다음과 같은 컴포넌트들로 구성되어 있습니다. DAG Directory 파이썬으로 작성된 DAG 파일을 저장하는 공간입니다..

article thumbnail
spark 최적화
Data Engeneering/spark 2023. 1. 18. 20:50

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_optimization.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 최적화 Spark 에는 최적화 기능들(optimizer) 을 갖추고 있습니다. 1.x 버전에서는 Rule-Based Optimizer만 ..