융무의 기술블로그
article thumbnail

이 책은 빅데이터를 지탱하는 기술, 데이터 파이프라인 핵심 가이드와 더불어 데이터 엔지니어링에 관한 기본서로 많은 내용을 담고 있습니다. 또한, 많은 분들께 추천을 받아 읽게 되었으며 데이터 수명 주기에 관해서 많이 공감하며 재밌게 읽었습니다.

  • 이 책을 읽기 전까지 엔지니어가 결국 기업의 의사결정을 효율적으로 지원하는 역할을 해야 한다고 생각했습니다. 이에 따라 백엔드부터 비즈니스 인텔리전스, 인공지능, 머신러닝, 그리고 MLOps까지 다양한 분야를 고려해야 한다고 생각했습니다. 그러나 이 책을 통해 데이터 엔지니어의 궁극적인 목적과 역할에 대해 새롭게 조명을 받게 되었습니다.
  • 데이터 엔지니어링의 생명주기는 데이터의 생성부터 저장, 수집, 변환, 그리고 서빙까지 이르며, 이 전 과정에 걸쳐 보안, 데이터 관리, DevOps, 아키텍처, 그리고 오케스트레이션, 소프트웨어 엔지니어링까지 다양한 요소들이 복합적으로 작용합니다. 결국, 데이터 엔지니어는 이러한 수명주기 전반에 걸쳐 기업의 투자수익률(ROI)을 극대화하고, 재무적, 기회적 비용을 최소화하며, 다양한 리스크(보안과 데이터 품질 등)를 효과적으로 관리하는 것이 최상위 목표라 할 수 있습니다.
  • 이 책은 "어떻게 하면 비즈니스에 진정한 가치를 더하는 데이터 엔지니어가 될 수 있을까?" 그리고 "데이터 엔지니어로서 고려해야 할 핵심 요소들은 무엇인가?" 등의 본질적인 질문에 대한 깊이 있는 통찰을 제공합니다. 이 책에서 탐구하는 데이터 엔지니어의 역할은 더욱 정확하게는 '데이터 수명주기 엔지니어'라고 칭할 수 있을 만큼 전반적이고 종합적인 관점을 제시합니다.
  • 데이터 엔지니어링 수명 주기
    • 데이터 엔지니어링 수명 주기는 원시 데이터의 요소를 분석가, 데이터 과학자, ML 엔지니어 등이 사용할 수 있는 유용한 최종 제품으로 전환하는 단계로 구성됩니다.

https://www.oreilly.com/library/view/fundamentals-of-data/9781098108298/ch02.html

    • 또한 이 책에서 좋은 점은 각 수명 주기에 대해서 주요 엔지니어링 고려 사항을 알려주고 있어서 많은 도움이 되었습니다.
    • 데이터 엔지니어링의 핵심 목적은 수명 주기 전체에 걸쳐 데이터를 운반하고, 최종 사용자의 요구에 따라 이를 제공하고 견고하고 신뢰성 높은 시스템 설계하는 것입니다.
  • 데이터 엔지니어링의 발전 과정
    • 1980년대: 데이터 웨어하우징의 시작
      • 1980년대 데이터 웨어하우스라는 용어가 형성되고 1989년 빌 인먼이 '데이터 웨어하우스'라는 용어 공식화.
      • IBM의 엔지니어들이 관계형 데이터베이스(RDBMS)와 SQL 개발하였으며 오라클이 이 기술 대중화.
      • BI(비즈니스 인텔리전스) 도구와 데이터 파이프라인의 필요성 증가되고 랄프 킴벌과 빌 인먼, 데이터 모델링 기법 개발.
    • 1990년대: 인터넷과 웹 우선 기업의 탄생
      • 1990년대 중반: 인터넷이 주류가 되며 AOL, 야후, 아마존 등 웹 우선 기업 탄생.
      • 닷컴 열풍으로 웹 애플리케이션과 백엔드 시스템에 활동 증가.
    • 2000년대 초: 현대 데이터 엔지니어링의 시작
      • 닷컴 열풍 이후 야후, 구글, 아마존 등이 강력한 기술 기업으로 성장했고 범용 하드웨어의 저렴화와 대규모 분산 컴퓨팅 클러스터의 발전.
      • 2003년: 구글, 구글 파일 시스템 논문 발표.
      • 2004년: 구글, 맵리듀스 논문 발표.
      • 2006년: 야후 엔지니어들이 아파치 하둡 개발 및 오픈소스화.
      • 아마존, AWS 개발 및 클라우드 시장 혁신.
    • 2000년대와 2010년대: 빅데이터 엔지니어링
      • 하둡 생태계와 오픈소스 빅데이터 도구의 성숙.
      • 실시간 빅데이터 분석의 새 시대 개막.
      • 빅데이터 엔지니어의 등장과 데이터 전달의 중요성 증가.
    • 2020년대: 데이터 수명 주기를 위한 엔지니어링
      • 데이터 엔지니어링의 모듈화, 분산, 고도의 추상화.
      • 데이터 엔지니어의 역할, 보안, 데이터 관리, 데이터옵스, 아키텍처, 오케스트레이션으로 확장.
      • CCPA, GDPR 등 데이터 프라이버시 및 규정 준수에 대한 중요성 증가.
  • 저자는 최신 기술과 사례들의 장단점을 이해하는 데 도움이 되는 분야 전문가를 찾아보는 것을 권장합니다. 또한, 다양한 최신 서적, 블로그 게시물, 논문을 광범위하게 조사하고, 데이터 엔지니어링 관련 밋업에 참여하여 다양한 관점을 듣고, 질문하며, 자신의 전문 지식을 공유하는 것이 유익하다고 말합니다. 저자는 공급업체의 발표를 면밀히 관찰하여 최신 개발 동향을 파악하고, 제시된 모든 주장을 신중히 검토할 것을 조언합니다.
  • 데이터 엔지니어로서 주니어로써 저자의 권유에 따라 이러한 다양한 활동에 참여하고 있으며, 이는 스킬업 큰 도움이 되고 있습니다. 책을 읽으며 많은 부분에 공감하고 경험과 지식을 풍부하게 하는 데에 많은 도움을 받았습니다.
  • 이 책은 우수한 아키텍처 설계, 데이터 엔지니어링의 수명 주기 단계, 그리고 보안 관행에 대해 깊이 있게 탐구합니다. 저자는 데이터 엔지니어링의 연속성과 그 뒤에 숨겨진 요소들에 중점을 두고, 관련된 주제들을 상세히 다루어 많은 통찰력을 제공합니다.
  • 이 책의 내용을 한 번만 읽기에는 아쉬움이 남아, 내용을 꼼꼼하게 정리하며 정독했습니다. 데이터 엔지니어링에 관한 이 책은 제게 기본서가 되어, 앞으로도 여러 번 읽을 계획입니다.

 

profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!