융무의 기술블로그
article thumbnail
데이터 엔지니어를 위한 97가지 조언- 토비아스 메이시
책 리뷰 2024. 10. 23. 23:06

이 책은 데이터 엔지니어로서 필요한 지식과 실무적 통찰을 제공하는 97가지 조언을 담고 있습니다. 책에는 데이터 전문가들이 다양하고 구체적인 문제를 극복하면서 얻은 경험과 교훈을 담고 있어서 가볍게 읽기 좋았습니다.주요 내용으로는 일관성과 최종 일관성에 대한 개념, 스토리지 계층의 효율적인 사용, 데이터 파이프라인의 설계 패턴, 그리고 변경 데이터 캡처(CDC)와 메시징 시스템의 중요성입니다. 또한, 데이터 레이크와 데이터 사일로, 데이터 계보 추적 및 관측 가능성의 필요성도 다루고 있으며 실용적이고 확장 가능한 데이터 시스템 구축을 위한 다양한 접근법을 제시하고 있습니다. 데이터 엔지니어링의 이론적 기반부터 실무적 적용까지 폭넓게 다루며, 새로운 기술 트렌드를 가볍게 소개하는 동시에 효율적인 설계 방법..

article thumbnail
데이터 품질의 비밀 - 바 모세스
책 리뷰 2024. 10. 14. 23:29

데이터 엔지니어로 실무를 하면서 연차가 쌓일수록 데이터 신뢰성과 품질에 대해서 많은 중요성을 느끼게 되었고 데이터 카탈로그나 데이터 계보, 데이터 품질 문제 해결, 신뢰성 높은 데이터 시스템을 구축 및 운영에 대해서 인사이트를 얻고자 책을 읽게 되었습니다.데이터 품질의 비밀은 데이터 시스템의 신뢰성 확보와 데이터 품질 관리에 중점을 둔 책입니다. 저자는 데이터 정제와 분석을 넘어서, 신뢰할 수 있는 데이터 시스템을 구축하는 모범 사례와 기술을 소개하며, 데이터 파이프라인에서 다운타임을 방지하고 품질을 유지하는 방법을 강조하고 있습니다.이 책은 데이터 엔지니어와 분석가를 대상으로 하며, 데이터 파이프라인의 복잡성과 다운타임 문제를 해결하는 실용적인 가이드를 제공합니다. 특히 데이터 레이크, 웨어하우스, 레..

article thumbnail
쿠버네티스 모범 사례 - 브렌던 번스
책 리뷰 2024. 2. 25. 21:51

이 책은 CKA 취득 후에 Kubernetes 환경에서 airflow와 trino 그리고 kubeflow를 활용한 MLops 프로젝트를 위해서 사전에 공부를 하게 될 겸 읽게 되었습니다. 책을 읽으면서 예제 코드를 실습할 때 CKAD를 병행하여 재밌게 읽었던 거 같습니다. 이 책은 쿠버네티스에 애플리케이션을 배포하거나 쿠버네티스 기반 애플리케이션에 적용할 수 있는 패턴과 사례를 배우려는 실무자를 대상으로 하고 있습니다. 쿠버네티스를 활용한 애플리케이션 개발, 운영 환경 구축에 필요한 포괄적인 지식을 제공하며 각 패턴별로 모범 사례를 소개하고 있어 실무를 하는데 많은 도움이 될 거 같습니다. 글로벌 애플리케이션 분산: 사용자 경험 향상을 위해 애플리케이션을 글로벌하게 분산 배포하는 전략을 탐구합니다. 레이..

article thumbnail
[postgresql] stored program과 stored procedure
DataBase 2024. 1. 13. 00:13

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Stored Program 스토어드 프로그램은 데이터베이스 시스템 내에서 정의하고 저장하여 재사용 가능한 SQL 문의 모음입니다. 이는 스토어드 루틴이라고도 하며, 스토어드 프로시저, 스토어드 함수, 트리거, 이벤트 등을 포함합니다 스토어드 프로그램의 장점 데이터베이스의 보안 향상 기능의 추상화 네트워크 소요 시간 절감 절차적 기능 구현 개발 업무의 구분 스토어드 프로그램의 단점 낮은 처리 성능 애플리케이션 코드의 조각화 스토어드 프로그램의 구조 정의부 : 스토어드 프로그램의 헤더 부분, 주로 스토어드 프로그램의 이름과 입출력 값을 명시하는 부분 본문 부분 : 스토어드 프로그램의 바디(Body)라고도 하며,..

article thumbnail
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(3) - Trino 설치 및 연동
Cloud 2024. 1. 11. 22:29

플랫폼을 운영하면서 실제로 플랫폼 환경을 구축해보고 싶어 쿠버네티스 상에서 데이터 파이프라인을 구축하려고 합니다. [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(1) - Hive Metastore MySQL로 구성 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(3) - Trino 설치 및 연동 Trino와 MinIO 설정 MinIO 설정 MinIO 클라이언트 초기 설정 MinIO 클라이언트(mc)를 사용해 MinIO 서비스에 접속합니다. kubectl port-forward pod/minio 9000 9090 -n minio-dev ./mc alias s..

article thumbnail
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포
Cloud 2024. 1. 7. 23:57

플랫폼을 운영하면서 실제로 플랫폼 환경을 구축해보고 싶어 쿠버네티스 상에서 데이터 파이프라인을 구축하려고 합니다. 원천 데이터 소스의 경우 환경을 먼저 구축한 뒤에 데이터를 배치하려고 합니다. [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(1) - Hive Metastore MySQL로 구성 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(3) - Trino 설치 및 연동 Dockerfile 생성 Hive Metastore를 실행하기 위한 Docker 이미지를 만들기 위한 Dockerfile을 작성합니다. 하둡과 hive, mysql 커넥터의 경우 링크에서..

article thumbnail
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(1) - Hive Metastore MySQL로 구성
Cloud 2023. 12. 31. 13:55

플랫폼을 운영하면서 실제로 플랫폼 환경을 구축해보고 싶어 쿠버네티스 상에서 데이터 파이프라인을 구축하려고 합니다. 원천 데이터 소스의 경우 환경을 먼저 구축한 뒤에 데이터를 배치하려고 합니다. [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(1) - Hive Metastore MySQL로 구성 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포 [GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(3) - Trino 설치 및 연동 Hive Metastore를 MySQL에 설정하고, Trino를 사용하여 MinIO에 저장된 데이터에 대한 쿼리를 실행하는 방법에 대해 포스팅하려고 합니다. Hive Metastore와 ..

article thumbnail
Certified Kubernetes Application Developer (CKAD) 합격 후기

쿠버네티스로 실무를 할 수 있을 거 같아서 미리 연초에 CKA를 준비하였고 쿠버네티스 관련된 책을 읽으면서 기본적인 지식은 있었습니다. 현재 내부사정으로 쿠버네티스 실무를 하고 있지는 않지만 gke 상에서 쿠버네티스를 활용해서 데이터 파이프라인 환경을 구성하면서 CKAD를 병행하면서 개념을 다시 잡으면 좋을 거 같아 시험을 보게 되었습니다. 11월 말에 사이버먼데이를 활용해 시험 50% 할인을 받았습니다. CKAD 시험과 관련된 후기를 남기고자 합니다. 시험 준비 시험 준비 기간은 3주 정도 소요되었으며 쿠버네티스 실무 경험은 없지만 CKA 자격증이 있었고 쿠버네티스 관련된 서적을 읽어서 기본적인 지식이 있는 상태였습니다. 또한 쿠버네티스 기반 사이드 프로젝트를 하고 있어서 시험을 준비하는데 많은 시간은..