책을 읽게 된 계기는 2가지가 있습니다. 이커머스에서 애플리케이션 서버를 운영할 때 로깅을 Fluentd를 사용하면서 Input, Parse, Filter, Buffer, Output을 설정하였고 Fluentd를 만든 treasure data사에 대해서 궁금한 부분이 몇 가지 있어서 읽게 되었습니다. treasure data사는 데이터 처리의 플랫폼으로 오픈 소스의 스트리밍 형 전송 도구인 Fluentd와 벌크 형 전송 도구인 Embulk를 개발한 곳입니다. 현재 treasure data 사의 CDP(Customer Data Platform)를 운영하면서 플랫폼에 대해서 공부를 하다가 이 책을 읽게 되었습니다. - 책은 이론을 설명하면서 그림과 실습형 소스코드 위주로 이루어져 있는데 로그에 대해서 자세하..
- 서비스 운영 중 추천 시스템 배치에서 DB lock 운영 문제가 발생되었고 다른 서비스를 운영하면서 presto와 hive 엔진을 사용하며 sql 성능 최적화 및 튜닝 포인트에 관심이 가기 시작해서 책을 읽게 되었습니다. 이 책은 1권과 2권으로 나누어지며 2권에서는 쿼리의 실행 계획 분석 및 최적화, 스토어드 프로그램 개발, 데이터 모델링 및 최적의 데이터 타입 선정, 파티션 및 데이터 압축 활용, TDE를 활용한 데이터 암호화, GIS 및 전문 검색 기능 활용, Performance 스키마 및 Sys 스키마 활용에 관한 내용을 다루고 있습니다. - 책의 전반적인 내용은 다음과 같습니다. 쿼리 패턴별로 어떻게 처리되고 프로그램 코드를 상당히 줄일 수 있는 유용한 쿼리 패턴들을 예제와 소스코드를 활용..
서비스 운영 중 추천 시스템 배치에서 DB lock 운영 문제가 발생되었던 적이 있었습니다. 추천 결과를 DB temp table로 export 하는 과정에서 Lost connection to MySQL server during query 에러가 발생하였고 방어 로직으로 재시도하였지만 lock wait timeout exceeded에러가 발생해서 배치 실패 경험이 있었습니다. 물론 spark와 airflow를 튜닝하면서 그 당시에는 쿼리 수정 및 에러 로그와 원론적인 부분만 팠었지만 현재 다른 서비스를 운영하면서 presto와 hive 엔진을 사용하며 sql 성능 최적화 및 튜닝 포인트에 관심이 가기 시작했습니다. MySQL에 대해서 디테일하게 배우고자 책을 선택하게 되었던 거 같습니다. - 이 책은 1..
책을 선택하게 된 계기는 간단한 거 같습니다. 대용량 데이터를 다루면서 확장성 좋은 아키텍처가 필요하다고 느꼈고 프로젝트를 진행하면서 튜닝 포인트나 다른 프로젝트에서 나였다면 어떻게 행동했을까라는 생각을 하면서 파이썬에 대해서 디테일하게 배우고 싶어서 책을 읽게 되었습니다. - 이 책은 고성능 코드를 작성할 때 필요한 이론과 실무에 한 걸음 다가가고 싶은 분, 성능 좋은 시스템을 만드는 방법을 이해하고 싶은 모든 개발자, 파이썬을 충분히 사용해보았고 특정 부분이 왜 느린지 생각해본 적이 있으며, 이를 위한 해법으로 거론되는 사이썬(Cython), 넘파이, PyPy 같은 기술을 들어본 독자를 대상으로 하고 있습니다. 또, 다른 언어로 프로그래밍해본 경험이 있어서 성능을 개선하는 방법이 여러 가지임을 아는 ..
데이터 엔지니어로 실무를 하면서 2년차에 접어들게 되었는데 조직의 다양한 개편으로 인해 작년과 다르게 데이터를 바라보는 시각이 넓어지게 되었습니다. 세미나를 참석하면서 다양한 데이터를 다루는 조직을 간접 경험하게 되었고 tech 블로그를 통해서 다른 기술사의 조직 운영 및 기술 발전과 커리어에 대해 관심이 많이 가지게 되었습니다. 구글이 일하는 방식이 궁금하고 수만 명의 엔지니어가 다듬어온 소프트웨어 엔지니어링 지식에 대해 더 자세히 알고자 책을 선택하게 되었습니다. - 이 책은 소프트웨어 조직이 설계, 아키텍처 잡기, 코드 작성 시 명심해야 한다고 믿는 세 가지 기본 원칙을 강조고 있습니다. 코드가 수명을 다할 때까지 새로운 요구사항에 잘 적응하려면 어떻게 해야 하는가? 에 대한 시관과 변경, 커져가는..
스파크를 공부하면서 하둡에 관심이 가기 시작했고 실무로 배우는 빅데이터 기술의 책을 읽고 간단한 사이드 프로젝트를 진행하면서 하둡 에코시스템에 대해 디테일하게 알고 싶어 책을 선택하게 되었습니다. - 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있음, 하둡이 나온 후 이를 기반으로 피그, 하이브, HBase, 스쿱, 플룸 등의 오픈 소스 기술이 등장했고, 이들을 모두 결합한 빅데이터 기술은 통칭하여 하둡 에코시스템이라고 부르게 되었음, 스파크의 등장으로 대용량 데이터를 저장하고 일괄 처리하는 수준에서 벗어나 머신러닝과 실시간 분석까지 아우르게 되었음 - 이 책은 하둡의 핵심, 하둡 에코시스템 관련 프로젝트, 하둡 사례 ..
- 데이터 플랫폼을 운영하면서 ELT 데이터 파이프라인을 관리하면서 이러한 시스템에 대한 구조를 조금 더 깊게 파악하고 싶어서 책을 읽게 되었습니다. 이 책은 데이터 파이프라인을 소개하며 최신 데이터 인프라와 ETL 구조의 예시를 사례와 코드를 통해서 정리해놨으며 파이프라인 오케스트레이션에 대한 설명도 하고 있어서 전반적인 구조를 알 수 있어서 유익하였습니다. - 데이터 분석이 잘 이뤄지기 위해서는 분석에 필요한 형태로 잘 정리된 데이터가 필요하고, 원하는 분석 결과를 얻기 위해서는 적합한 기간의 정확한 데이터가 필요함, 이러한 데이터들은 잘 구성된 데이터 파이프라인 안에서만 만들어질 수 있는데 이 책은 데이터 파이프라인의 전반적인 소개와 패턴을 다룸, 데이터 파이프라인 각 단계를 계획할 때부터 구성 후..
- 이 책은 Apache Airflow의 개념과 적용 방법에 대한 설명뿐만 아니라, 실제 서비스 운영 시 고려해야 할 모니터링, 확장, 보안 등에 관한 내용에 관한 내용을 상세하게 안내하고 있으며 , 다양한 클라우드 환경에서 활용하는 방법까지 다루고 있습니다. 또한 Airflow 설치부터 파이프라인 작성, 테스트, 분석, 백필 그리고 배포 실습까지 한 번에 해결할 수 있어 많은 도움이 되었습니다. 책에서는 전반전익 Airflow에 대해 설명하고 있으며 기초, 중급, 실습으로3단계에 나눠서 소개하고 있습니다. 특히 클라우드에서 Airflow 관리에 대해서 AWS, GCP, Azure에 대해서 실습을 통해 더 자세하게 알 수 있었으며 운영하고 있는 Airflow에 대해서 시스템적으로 돌아보게 되는 계기가 되..