융무의 기술블로그
article thumbnail

데이터 엔지니어로 실무를 하면서 연차가 쌓일수록 데이터 신뢰성과 품질에 대해서 많은 중요성을 느끼게 되었고 데이터 카탈로그나 데이터 계보, 데이터 품질 문제 해결, 신뢰성 높은 데이터 시스템을 구축 및 운영에 대해서 인사이트를 얻고자 책을 읽게 되었습니다.

  • 데이터 품질의 비밀은 데이터 시스템의 신뢰성 확보와 데이터 품질 관리에 중점을 둔 책입니다. 저자는 데이터 정제와 분석을 넘어서, 신뢰할 수 있는 데이터 시스템을 구축하는 모범 사례와 기술을 소개하며, 데이터 파이프라인에서 다운타임을 방지하고 품질을 유지하는 방법을 강조하고 있습니다.
  • 이 책은 데이터 엔지니어와 분석가를 대상으로 하며, 데이터 파이프라인의 복잡성과 다운타임 문제를 해결하는 실용적인 가이드를 제공합니다. 특히 데이터 레이크, 웨어하우스, 레이크하우스와 같은 다양한 데이터 저장소 간의 비교를 통해 최신 데이터 시스템 동향을 파악하게 하고, 운영 데이터와 분석 데이터의 차이, 데이터 품질 관리 방안 등을 제시합니다.
  • 책은 볼륨, 신선도, 분포 같은 핵심 지표를 기반으로 한 데이터 품질 모니터링을 강조하며, 예측 가능한 문제와 예측 불가능한 문제를 모두 다루는 기술적 접근법을 소개합니다. 또한, 자기회귀 모델, 클러스터링, 앙상블 기법과 같은 머신러닝 기반 이상 탐지 기법을 통해 데이터 품질을 유지하는 방법을 설명합니다. 데이터 웨어하우스와 데이터 레이크에서의 품질 모니터링 차이, 옵저버빌리티(가시성)의 중요성, 그리고 SLA, SLI, SLO 설정과 같은 신뢰성을 보장하는 기법도 다뤄집니다.
  • 근본 원인 분석(RCA)과 사후 검토(포스트모뎀)를 활용한 문제 해결과 데이터 파이프라인의 신뢰성을 유지하는 방법이 제시되며, 데이터 계보를 통해 데이터 품질 문제를 추적하고 해결 시간을 단축하는 방법도 설명됩니다. 이 과정에서 필드 레벨 계보와 같은 도구는 개인 식별 정보 관리 및 데이터 부채 감축에 중요한 역할을 합니다.
  • 저자는 데이터 품질 민주화라는 개념을 강조하며, 데이터를 단순한 자산이 아닌 데이터 프로덕트로 취급할 것을 제안합니다. 이와 함께 데이터 카탈로그와 메타데이터 관리의 중요성을 언급하며, 허브 앤 스포크 구조와 시맨틱 레이어를 통해 데이터 접근성을 높이고, 데이터 거버넌스와 데이터 리터러시 전략을 통해 전체 조직이 데이터 품질을 유지할 수 있도록 합니다.
  • 사례 연구로는 콜리브리 게임즈가 소개되며, 이들이 데이터 메시 아키텍처를 도입해 게임 개발 속도를 높이고, 데이터 품질을 개선하며 신뢰성을 유지한 과정이 설명됩니다. 데이터 메시 구축을 통해 도메인별 데이터 소유권을 강화하고, 실시간 데이터 검색과 메타데이터 관리 툴을 활용해 데이터 품질을 유지하는 접근 방식도 제시됩니다.
  • 이 책은 자동화, 데이터 메시, 데이터 레이크하우스 등 최신 기술을 활용한 데이터 품질 관리의 미래를 전망하며, 데이터를 단순히 수집하는 것 이상의 가치로 다루어야 할 필요성을 강조합니다. 데이터 품질 문제를 해결하고 신뢰성 높은 데이터 시스템을 구축하려는 모든 전문가에게 실질적인 인사이트를 제공합니다.

  • 데이터 신뢰성 및 품질 관리
    • 클라우드 데이터 시스템
      • 클라우드 데이터 웨어하우스(스노우플레이크, 레드시프트)와 데이터 레이크의 신선도 및 볼륨 데이터 품질 메트릭을 쉽게 추적.
      • 오픈 소스 도구(dbt, 그레이트 익스펙테이션스)를 통해 데이터셋 테스트를 신속하게 수행할 수 있음.
      • 데이터 카탈로그(얼레이션, 콜리브라)를 통해 정적 데이터 무결성과 검색 통찰력을 확보.
    • 데이터의 맥락과 활용
      • 명확한 사용 사례가 없는 데이터는 가치가 없으며, 메타데이터도 사용 사례 없이는 의미가 없음.
      • 데이터 계보의 가치는 실제 비즈니스 적용 사례에서 나옴.
    • 데이터 계보의 중요성
      • 데이터 라이프사이클 각 단계에서 데이터 상태를 추적하고, 품질 이슈를 이해하는 데 필수적.
      • 업스트림 데이터 소스와 다운스트림 종속성 간의 관계를 파악하여 데이터 흐름의 가시성을 제공.
    • 데이터 계보 구축 시 고려 사항
      • 가치 실현 시간 단축, 보안 아키텍처, 자동화, 주요 데이터 도구와의 통합성, 컬럼 레벨 정보 추출, 데이터 정합성 검토 등.
    • 문제 해결 접근 방식
      • 최신 기술에 의존하지 않고 비즈니스 이해를 바탕으로 아키텍처 구축을 강조.
      • 현재 기술 스택을 최적화하는 것이 중요함.
  • 데이터 스택의 구조
    • 데이터 수집
    • 데이터 저장 및 처리
      • 데이터 웨어하우스: 엄격한 스키마 요구.
      • 데이터 레이크: 원시 데이터와 비구조화된 데이터 지원.
      • 데이터 레이크하우스: 웨어하우스와 데이터 레이크의 혼합 형태로, 더 유연한 구조.
    • 데이터 변환 및 모델링
      • 데이터 준비와 구조화 작업.
    • 비즈니스 인텔리전스 및 분석
    • 데이터 검색 및 거버넌스
      • 데이터 카탈로그를 활용하여 개인 식별 정보를 효과적으로 관리하고 추적.
  • 데이터 품질 최적화
    • 데이터 팀이 SLA, SLI, SLO 설정을 통해 신뢰성을 통합하고, 핵심 요소인 신선도, 볼륨, 배포, 스키마, 계보를 기반으로 데이터 품질을 최적화하는 방법을 공유.
 
profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!