융무의 기술블로그
article thumbnail
data mesh와 data fabric
BI/DW 2023. 7. 9. 22:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Data Mesh 데이터 메시 아키텍처는 분석 데이터를 위한 도메인 주도 설계입니다. 기존에 Data Warehouse나 Data Lake에서 중앙집중적으로 관리되었던 분석 데이터들을 탈중앙화하여 관리를 하는 개념으로 모놀리식 및 중앙 집중식 데이터 레이크를 넘어 의도적으로 분산된 아키텍처입니다.(팀이 자체 데이터와 서비스를 소유할 수 있도록 하는 데 목적을 둔 분산 데이터 아키텍처) 기존 Data Warehouse나 Data Lake를 이용하게 되면 모든 데이터가 한 곳에 쌓이면서 복잡도가 상승하여 결국 필요한 데이터를 찾고 정제하는 데에 많은 시간과 노력이 낭비되며, 이 문제를 해결하기 위해서 Data ..

article thumbnail
Trino 최적화
Data Engeneering/presto 2023. 7. 1. 21:14

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Trino 성능 최적화 CBO와 Cost-based Join Enumeration : CBO는 전체 쿼리 실행 계획의 최적화를 위한 것이며, Cost-based Join Enumeration은 그중에서도 특히 조인 순서 최적화에 초점을 맞춘 부분입니다 CBO (Cost-Based Optimizer) CBO는 전반적인 쿼리의 최적화를 위해 개발되었습니다. 쿼리 플랜에 포함된 여러 연산자(조인, 필터, 집계 등) 사이의 상호 작용을 고려하여 쿼리의 전체 실행 비용을 최소화하도록 설계되었습니다.테이블 통계, 칼럼 통계, 데이터 분포 등의 메타 데이터 정보를 기반으로 작동합니다. 이러한 통계 정보를 사용하여 각 연..

article thumbnail
[Hadoop] Hadoop ECO System
Data Engeneering/Hadoop 2023. 5. 28. 15:26

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_eco.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어 기술 정리 데이터 엔지니어 기술 정리. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Data Ingestion Flume 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어로 클라우데라에서 개발한 ..

article thumbnail
[de zoomcamp] 06_스트리밍
PJT 2023. 5. 21. 15:01

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/06_stream_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com docker에서 Spark 및 Kafka 실행 아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 피드의 분산 스트리밍, ..

article thumbnail
[de zoomcamp] 05_배치 처리
PJT 2023. 5. 7. 22:39

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/05_batch_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Dataproc Cloud Dataproc이란? 클라우드 네이트브 아파치 하둡 및 아파치 스파크 서비스 완전 관리형 클라우드 서비스이기에 더 간단..

article thumbnail
쿠버네티스 인 액션 - 마르코 룩샤
책 리뷰 2023. 5. 7. 21:52

이 책은 Mumshad Mannambeth의 Certified Kubernetes Administrator (CKA) with Practice Tests 강의를 수강하고 CKA 시험에 합격한 뒤에 쿠버네티스에 대해 딥다이브하기 위해 읽게 되었습니다. 책과 관련된 주요 개념의 내용은 Kubernetes 정리에서 확인할 수 있습니다. 이 책은 크게 3 부분으로 구성되어 있습니다. 도커와 쿠버네티스를 간략하게 소개하고 쿠버네티스 클러스터를 설치하는 방법과 간단한 애플리케이션을 실행하는 방법, 쿠버네티스에서 애플리케이션을 실행하기 위해 반드시 이해해야 하는 핵심 개념, 쿠버네티스 클러스터의 내부를 깊이 들여다보며 몇 가지 추가적인 개념을 소개로 구성되어 있습니다. 이 책은 파드와 레플리케이션컨트롤러, 레플리카셋..

article thumbnail
[de zoomcamp] 04_분석 엔지니어링
PJT 2023. 5. 7. 18:31

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/04_analytics_engineering GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Analytics Engineering이란? 분석 엔지니어의 요구 스택 데이터 스토리지 : 데이터 웨어하우징, Azure Blob Sto..

article thumbnail
[de zoomcamp] 03_데이터 웨어하우스
PJT 2023. 5. 7. 18:10

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/03_data_warehouse GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Bigquery 빅쿼리란? 빅쿼리는 머신 러닝이 내장되어 있으며 확장성이 우수한 완전 관리형 데이터 웨어 하우스입니다. 확장성이 뛰어난 구글의 기업용..