융무의 기술블로그
article thumbnail

Data Warehouse, Data Lake, Data Fabric의 비교를 공부하다가 이 책을 읽게 되었습니다. 데이터 민주화란 데이터에 쉽게 접근할 수 있도록 기반을 만들어 데이터를 잘 아는 사람부터 잘 모르는 사람까지 누구나 데이터를 쉽게 사용해 인사이트를 도출할 수 있도록 하는 것을 의미하고 셀프서비스 데이터란 데이터 엔지니어나 데이터 과학자가 관여하지 않더라도 마케터, 사업 담당자, 서비스 운영 담당자 등 조직 내 모든 사람이 스스로 데이터에 접근해 인사이트를 추출할 수 있도록 만들어진 데이터 기반을 의미합니다. 


- 이 책은 원시 데이터에서 인사이트로의 여정 지도인 발견, 준비, 구축, 운영화에 이르기까지의 내용을 담고 있으며 인사이트 시간 스코어가드를 사용하여 18개의 지표의 내용을 담고 있습니다. 간략하게 서술하면 다음과 같습니다.
  - 해석 시간(time to intepret) : 데이터 세트의 메타데이터 세부 정보를 인사이트 개발에 사용하기 전에 해석하는 마일스톤에 연관된 지표 
  - 탐색 시간(time to find) : 검색 관련 데이터 세트와 아티팩트의 마일스톤에 연관된 지표 
  - 피처화 시간(time to featurize) : ML 모델 학습에 필요한 기능 관리 마일스톤과 연관된 지표 
  - 데이터 가용성 확보 시간(time to data availability) : 사일로 간에 데이터를 이동하는 마일스톤과 연관된 지표 
  - 클릭 시간(time to click) : 클릭스트림 데이터 이벤트의 수집, 관리, 분석 마일스톤과 연관된 지표 
  - 데이터 레이크 관리 시간(time to data lake management) : 중앙 저장소에서 데이터를 관리하는 마일스톤과 연관된 지표 
  - 랭글링 시간(time to wrangle) : 데이터 구조화, 정리, 보강, 검증의 마일스톤과 연관된 지표 
  - 규정 준수 시간(time to comply) : 데이터 권한 규정 준수를 보장하는 마일스톤과 연관된 지표 
  - 가상화 시간(time to virtualize) : 데이터 구축, 분석의 접근 방식을 선택하는 마일스톤과 연관된 지표 
  - 변환 시간(time to transform) : 데이터 및 ML 파이프라인에서 변환 로직을 구현하는 마일스톤과 연관된 지표 
  - 학습 시간(time to train) : ML 모델 학습 마일스톤과 관련된 지표 
  - 통합 시간(time to integrate) : ML 파이프라인의 코드, 데이터, 설정의 변경을 통합하는 마일스톤과 연관된 지표 
  - A/B 테스트 시간(time to A/B test) : A/B 테스트의 마일스톤과 연관된 지표 
  - 최적화 시간(time to optimize) : 쿼리 및 빅데이터 프로그램을 최적화하는 마일스톤과 연관된 지표 
  - 오케스트레이션 시간(time to orchestrate) : 프로덕션의 파이프라인 조정 마일스톤과 연관된 지표 
  - 배포 시간(time to deploy) : 프로덕션에 인사이트를 배포하는 마일스톤과 연관된 지표 
  - 인사이트 품질 확보 시간(time to insight quality) : 생성된 인사이트의 정확성을 보장하는 마일스톤과 연관된 지표 
  - 비용 최적화 시간(time to optimize cost) : 비용을 최적화하는 마일스톤과 연관된 지표 
- 책을 읽으면서 좋았던 점은 각 지표에 대해서 여정 지도와 요구 사항 정의, 구현 패턴에 대해 세세하게 알 수 있어서 좋았고 각 마일스톤에 활용된 오픈소스 및 툴에 대해 공부를 할 수 있어서 좋았습니다. 그동안 데이터 엔지니어링 관련해서 정리를 하면서 기술은 다양한데 적용을 안 해보니 개념 정리가 어려웠었는데 이 책을 읽고 많은 도움이 되었습니다. 관련된 오픈소스는 Apache Atlas, Metacat, Amundsen, Michelangelo, Hopsworks, Apache Sqoop, Debezium, Apache Gobblin, Apache Flume, Segemnt와 RudderStack, Apache Pulsar, Apache Druid, Ranger, AWS Data Lake Formation, Apache Drill, Apache Beam, Apache NiFi, StreamSets, Matilion ETL, Looker, Kyeston, TensorFlow Extended, Apache Calcite, Hue, Sparklens, Dr.Elephant, Airflow, Piper, Meson, Apache Griffin, Deequ 등이며 정리를 하는데 많은 도움이 되었습니다.
- 이 책은 데이터 엔지니어, 데이터 과학자, 팀 관리자 등에게 유익한 내용을 담고 있으며 책에서 얻어갈 부분이 많다고 생각합니다. 정리를 하면서 새롭게 알게 된 부분이 많았고 재밌게 읽었던 거 같습니다.

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!