서비스 운영 중 추천 시스템 배치에서 DB lock 운영 문제가 발생되었던 적이 있었습니다. 추천 결과를 DB temp table로 export 하는 과정에서 Lost connection to MySQL server during query 에러가 발생하였고 방어 로직으로 재시도하였지만 lock wait timeout exceeded에러가 발생해서 배치 실패 경험이 있었습니다. 물론 spark와 airflow를 튜닝하면서 그 당시에는 쿼리 수정 및 에러 로그와 원론적인 부분만 팠었지만 현재 다른 서비스를 운영하면서 presto와 hive 엔진을 사용하며 sql 성능 최적화 및 튜닝 포인트에 관심이 가기 시작했습니다. MySQL에 대해서 디테일하게 배우고자 책을 선택하게 되었던 거 같습니다. - 이 책은 1..
책을 선택하게 된 계기는 간단한 거 같습니다. 대용량 데이터를 다루면서 확장성 좋은 아키텍처가 필요하다고 느꼈고 프로젝트를 진행하면서 튜닝 포인트나 다른 프로젝트에서 나였다면 어떻게 행동했을까라는 생각을 하면서 파이썬에 대해서 디테일하게 배우고 싶어서 책을 읽게 되었습니다. - 이 책은 고성능 코드를 작성할 때 필요한 이론과 실무에 한 걸음 다가가고 싶은 분, 성능 좋은 시스템을 만드는 방법을 이해하고 싶은 모든 개발자, 파이썬을 충분히 사용해보았고 특정 부분이 왜 느린지 생각해본 적이 있으며, 이를 위한 해법으로 거론되는 사이썬(Cython), 넘파이, PyPy 같은 기술을 들어본 독자를 대상으로 하고 있습니다. 또, 다른 언어로 프로그래밍해본 경험이 있어서 성능을 개선하는 방법이 여러 가지임을 아는 ..
잘될 수밖에 없는 너에게라는 책을 회사 동료로부터 선물을 받아서 읽게 되었습니다. 간절한 마음으로 저자의 이야기를 읽고 있을 독자를 위해 작은 도움이라도 되고 싶은 마음으로 책을 출간하였으며 읽으면서 정서관리가 되었고 많은 부분이 가슴에 와닿으며 많은 생각을 하게 되었습니다. - 욕심쟁이는 스스로의 욕망을 인정하고 삶에 한계를 두지 않는, 두려움 없이 스스로에게 솔직한 사람이다. - 우리가 집중해야 할 것은 잘못하지 않고 미움받지 않는 게 아니라 같은 실수를 반복하지 않는 것, 어제의 나보다 좀 더 나아지는 것뿐이다. - 지금보다 더 나은 내가 되기 위해 하는 노력 중 가장 신경 쓰는 것은 글쓰기다. 머릿속에서 흘러 다니는 수많은 생각을 글로 기록하고 자료로 만든다. 현재 내 지적 수준이나 감정 상태를 ..
데이터 엔지니어로 실무를 하면서 2년차에 접어들게 되었는데 조직의 다양한 개편으로 인해 작년과 다르게 데이터를 바라보는 시각이 넓어지게 되었습니다. 세미나를 참석하면서 다양한 데이터를 다루는 조직을 간접 경험하게 되었고 tech 블로그를 통해서 다른 기술사의 조직 운영 및 기술 발전과 커리어에 대해 관심이 많이 가지게 되었습니다. 구글이 일하는 방식이 궁금하고 수만 명의 엔지니어가 다듬어온 소프트웨어 엔지니어링 지식에 대해 더 자세히 알고자 책을 선택하게 되었습니다. - 이 책은 소프트웨어 조직이 설계, 아키텍처 잡기, 코드 작성 시 명심해야 한다고 믿는 세 가지 기본 원칙을 강조고 있습니다. 코드가 수명을 다할 때까지 새로운 요구사항에 잘 적응하려면 어떻게 해야 하는가? 에 대한 시관과 변경, 커져가는..
스파크를 공부하면서 하둡에 관심이 가기 시작했고 실무로 배우는 빅데이터 기술의 책을 읽고 간단한 사이드 프로젝트를 진행하면서 하둡 에코시스템에 대해 디테일하게 알고 싶어 책을 선택하게 되었습니다. - 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있음, 하둡이 나온 후 이를 기반으로 피그, 하이브, HBase, 스쿱, 플룸 등의 오픈 소스 기술이 등장했고, 이들을 모두 결합한 빅데이터 기술은 통칭하여 하둡 에코시스템이라고 부르게 되었음, 스파크의 등장으로 대용량 데이터를 저장하고 일괄 처리하는 수준에서 벗어나 머신러닝과 실시간 분석까지 아우르게 되었음 - 이 책은 하둡의 핵심, 하둡 에코시스템 관련 프로젝트, 하둡 사례 ..
- 데이터 플랫폼을 운영하면서 ELT 데이터 파이프라인을 관리하면서 이러한 시스템에 대한 구조를 조금 더 깊게 파악하고 싶어서 책을 읽게 되었습니다. 이 책은 데이터 파이프라인을 소개하며 최신 데이터 인프라와 ETL 구조의 예시를 사례와 코드를 통해서 정리해놨으며 파이프라인 오케스트레이션에 대한 설명도 하고 있어서 전반적인 구조를 알 수 있어서 유익하였습니다. - 데이터 분석이 잘 이뤄지기 위해서는 분석에 필요한 형태로 잘 정리된 데이터가 필요하고, 원하는 분석 결과를 얻기 위해서는 적합한 기간의 정확한 데이터가 필요함, 이러한 데이터들은 잘 구성된 데이터 파이프라인 안에서만 만들어질 수 있는데 이 책은 데이터 파이프라인의 전반적인 소개와 패턴을 다룸, 데이터 파이프라인 각 단계를 계획할 때부터 구성 후..
- 선배의 선물로 읽게 된 책은 오랜만에 IT 서적이 아닌 힐링 에세이를 읽게 되었다. 책 표지에 근데 어차피 뛰어내릴 거, 그러기 전에 네가 꼭 하고 싶었던 거 하고 와. 의 부분에 많은 감정을 느끼게 되었다. 이 책은 1장 바들바들 덜덜덜 떨린다, 2장 뭐야 인생 생각보다 기네, 3장 두 발 딱 붙이고 검을 뽑아보자, 4장 푸하하가 모여서 행복이 되는구나, 5장 가장 행복한 순간은 아직 안 왔다 로 이루어져 있다. - 책은 비교적 가벼운 소재와 이야기로 서술되어 있으며 그 안의 내용으로 하여금 독자에게 많은 상상과 감정을 주는 거 같았다. 여러 에피소드 중에서 가장 기억에 남는 에피소드 몇 가지를 기록하고자 합니다. - 언제 나을지도 모르지만 그냥 놔두는 고통스러운 입병처럼 내가 겪는 아픔도 언젠가 ..
- 이 책은 Apache Airflow의 개념과 적용 방법에 대한 설명뿐만 아니라, 실제 서비스 운영 시 고려해야 할 모니터링, 확장, 보안 등에 관한 내용에 관한 내용을 상세하게 안내하고 있으며 , 다양한 클라우드 환경에서 활용하는 방법까지 다루고 있습니다. 또한 Airflow 설치부터 파이프라인 작성, 테스트, 분석, 백필 그리고 배포 실습까지 한 번에 해결할 수 있어 많은 도움이 되었습니다. 책에서는 전반전익 Airflow에 대해 설명하고 있으며 기초, 중급, 실습으로3단계에 나눠서 소개하고 있습니다. 특히 클라우드에서 Airflow 관리에 대해서 AWS, GCP, Azure에 대해서 실습을 통해 더 자세하게 알 수 있었으며 운영하고 있는 Airflow에 대해서 시스템적으로 돌아보게 되는 계기가 되..