융무의 기술블로그
article thumbnail
가상 면접 사례로 배우는 대규모 시스템 설계 기초 - 알렉스 쉬
책 리뷰 2023. 7. 22. 23:50

이 책은 도메인 주도 설계 첫걸음과 같이 추천을 받아서 읽게 된 책입니다. 이 책은 12가지의 시스템 설계에 대해서 문제 이해 및 설계 범위 확정, 개략적인 설계안 제시 및 동의 구하기, 상세 설계, 마무리라는 4단계 접근법을 통해서 공략하고 있습니다. 책을 읽으면서 시스템에 대해서 많은 생각이 들었고 아키텍처 그림과 실제 시스템 디자인 면접을 보는 듯한 느낌이 좋았습니다. 이 책의 목적은 시스템 설계 면접 문제를 푸는 데 안정적으로 적용할 수 있는 전략을 제시하는 것으로 규모 확장성을 갖춘 시스템을 만들기 위 해 필수적인 지식도 제공하고 있습니다. 이 책에서는 시스템 설계 면접 문제들을 공략하는 단계적 접근법도 다루고 있어서 해당 접근법을 실제로 따라 하면서 배울 수 있도록 많은 예제를 상세한 설명과 ..

article thumbnail
data mesh와 data fabric
BI/DW 2023. 7. 9. 22:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Data Mesh 데이터 메시 아키텍처는 분석 데이터를 위한 도메인 주도 설계입니다. 기존에 Data Warehouse나 Data Lake에서 중앙집중적으로 관리되었던 분석 데이터들을 탈중앙화하여 관리를 하는 개념으로 모놀리식 및 중앙 집중식 데이터 레이크를 넘어 의도적으로 분산된 아키텍처입니다.(팀이 자체 데이터와 서비스를 소유할 수 있도록 하는 데 목적을 둔 분산 데이터 아키텍처) 기존 Data Warehouse나 Data Lake를 이용하게 되면 모든 데이터가 한 곳에 쌓이면서 복잡도가 상승하여 결국 필요한 데이터를 찾고 정제하는 데에 많은 시간과 노력이 낭비되며, 이 문제를 해결하기 위해서 Data ..

article thumbnail
Trino 최적화
Data Engeneering/presto 2023. 7. 1. 21:14

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Trino 성능 최적화 CBO와 Cost-based Join Enumeration : CBO는 전체 쿼리 실행 계획의 최적화를 위한 것이며, Cost-based Join Enumeration은 그중에서도 특히 조인 순서 최적화에 초점을 맞춘 부분입니다 CBO (Cost-Based Optimizer) CBO는 전반적인 쿼리의 최적화를 위해 개발되었습니다. 쿼리 플랜에 포함된 여러 연산자(조인, 필터, 집계 등) 사이의 상호 작용을 고려하여 쿼리의 전체 실행 비용을 최소화하도록 설계되었습니다.테이블 통계, 칼럼 통계, 데이터 분포 등의 메타 데이터 정보를 기반으로 작동합니다. 이러한 통계 정보를 사용하여 각 연..

article thumbnail
데이터 과학자 원칙 - 이정원 외 8인
책 리뷰 2023. 6. 11. 21:51

"데이터 리더 9인이 말하는 데이터 과학자의 원칙과 철학"은 한데모 책나눔 이벤트를 통해 운이 좋게도 책을 받아 읽을 수 있었습니다. 이 책은 데이터 과학자로서의 성장에 관한 내용을 다루고 있으며, 개인의 성장부터 팀과 조직의 성장까지 다양한 주제를 다루고 있습니다. 이 책은 데이터로 실무를 하는 엔지니어부터 분석가 및 과학자들까지 읽으면 좋을 것 같습니다. 책에는 데이터 리더들의 많은 철학과 경험을 통해 데이터를 다루는 방향을 제시해 주는데, 이는 데이터 업무에 종사하는 사람들에게 매우 유익한 내용일 거 같습니다. 각 저자들은 자신의 경험과 사례를 통해 이야기를 전달하고 있으며, 그들의 경험과 철학을 통해 데이터 과학자로서 성장하고 방향을 잡을 수 있을 것입니다. 이 책은 데이터 과학자로서의 역할과 책..

article thumbnail
도메인 주도 설계 첫걸음 - 블라드 코노노프
책 리뷰 2023. 5. 28. 15:47

이 책은 가상 면접 사례로 배우는 대규모 시스템 설계 기초 책과 같이 추천을 받아서 읽게 된 책입니다. 도메인 주도 설계의 원칙과 패턴은 주니어, 시니어, 지원팀, 수석 등 모든 레벨의 소프트웨어 엔지니어에 유요한 책으로 데이터를 다루시는 분들은 가볍게 읽는 것을 권장드립니다. DDD는 소프트웨어를 모델링하고 효과적으로 구현하는 데 필요한 도구와 기법을 제공할 뿐만 아니라, 소프트웨어를 모델링하고 효과적으로 구현하는 데 필요한 도구와 기법을 제공할 뿐만 아니라, 소프트웨어 엔지니어링에서 자주 간과되는 관점인 맥락에 대해 밝혀주며 소프트웨어 엔지니어링의 중요한 관점에 대해서 배웠습니다. 이 책은 전략적 설계, 전술적 설계, DDD 실무, DDD와 다른 방법론 및 패턴과의 관계로 크게 네 개의 패턴으로 나누..

article thumbnail
[Hadoop] Hadoop ECO System
Data Engeneering/Hadoop 2023. 5. 28. 15:26

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_eco.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어 기술 정리 데이터 엔지니어 기술 정리. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Data Ingestion Flume 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어로 클라우데라에서 개발한 ..

article thumbnail
[de zoomcamp] 06_스트리밍
PJT 2023. 5. 21. 15:01

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/06_stream_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com docker에서 Spark 및 Kafka 실행 아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 피드의 분산 스트리밍, ..

article thumbnail
[Snowflake] Hands-On Essentials - data warehouse
BI/Snowflake 2023. 5. 14. 21:36

스노우 플레이크에 대해 알아보며 Hands-On Essentials data warehouse과정을 진행한 포스팅 내용입니다. Hands-On Essentials - data warehouse https://learn.snowflake.com/en/courses/uni-essdww101/ https://learn.snowflake.com/en/courses/uni-essdww101/ Hands-On Essentials Series This course is the first in the Hands On Essentials Series. This series allows you to earn a Badge for display on LinkedIn and other social media. The Esse..