융무의 기술블로그
article thumbnail
구글 클라우드 플랫폼 뽀개기 - 박정운
책 리뷰 2023. 3. 16. 22:56

GCP를 공부하기에 앞서서 GCP의 전반적인 서비스들을 쉽게 파악할 수 있는 기본서를 찾다가 이 책을 읽게 되었습니다. 이 책은 GCP의 다양한 서비스들의 개념을 세세하게 알려주고 있으며 실습 위주의 구성을 통해 구글 클라우드에 대해 알려주고 있습니다. 또한 실습 과정을 이미지를 통해서 보여주어서 이해하는데 좋았습니다. GCP에 어떤 서비스들이 있고 서비들을 어떻게 사용해야 하는지 하나하나 실습을 통해 알려주고 있습니다. 또한 서비스들의 역할이 무엇인지, 어떻게 사용하는지에 대해서 자세하게 설명해주고 있습니다. GCP 내 대표적인 서비스들에 대해서 기본을 접하는데 많은 도움이 되었습니다. 서비스 명 설명 Compute Engine 확장 가능한 고성능 VM 인스턴스 App Engine 웹 애플리케이션 배포..

article thumbnail
데이터 민주화와 셀프서비스 데이터 - 샌딥 우탐찬다니
책 리뷰 2022. 12. 30. 18:33

Data Warehouse, Data Lake, Data Fabric의 비교를 공부하다가 이 책을 읽게 되었습니다. 데이터 민주화란 데이터에 쉽게 접근할 수 있도록 기반을 만들어 데이터를 잘 아는 사람부터 잘 모르는 사람까지 누구나 데이터를 쉽게 사용해 인사이트를 도출할 수 있도록 하는 것을 의미하고 셀프서비스 데이터란 데이터 엔지니어나 데이터 과학자가 관여하지 않더라도 마케터, 사업 담당자, 서비스 운영 담당자 등 조직 내 모든 사람이 스스로 데이터에 접근해 인사이트를 추출할 수 있도록 만들어진 데이터 기반을 의미합니다. - 이 책은 원시 데이터에서 인사이트로의 여정 지도인 발견, 준비, 구축, 운영화에 이르기까지의 내용을 담고 있으며 인사이트 시간 스코어가드를 사용하여 18개의 지표의 내용을 담고 있..

article thumbnail
엔터프라이즈 빅데이터 레이크 - 알렉스 고렐릭
책 리뷰 2022. 12. 5. 21:50

Kimball의 다차원 모델링에 대해 공부하던 중 DW에 관심을 가지게 되었고 DW와 Data Lake, Data Fabric의 차이에 대해서 공부를 하게 되었습니다. 공부를 하면서 데이터 레이크에 대해 조금 더 자세하게 알아보고자 이 책을 선택하게 되었습니다. - 이 책은 데이터 레이크의 아키텍처와 장점, 데이터 레이크를 도입할 때의 어려움과 그런 어려움을 극복하는 방법에 대해 설명하고 있습니다. - 이 책은 데이터 레이크를 데이터 웅더이(분석적인 샌드박스)나 데이터 연못(큰 데이터 웨어하우스)을 바탕으로 확장할 때 활용할 수 있는 여러 접근법뿐만 아니라 아예 바닥부터 구축하는 방법까지 다룸. 사내, 클라우드 기반, 가상 등 다양한 데이터 레이크 아키텍처의 장단점을 살펴보고 있습니다. 미가공, 처리되지..

article thumbnail
하이브 완벽 가이드 - 에드워드 카프리올로, 딘 웜플러
책 리뷰 2022. 12. 1. 00:01

Hive와 Presto 쿼리 엔진을 이용하여 데이터 플랫폼에서 ELT를 담당하고 있습니다. 하둡 완벽 가이드에서 하이브에 대해 간략하게 봤지만 운영하면서 궁금했던 점이나 하이브의 쿼리 처리를 하는 데 있어서 디테일하게 보고자 이 책을 선택하게 되었습니다. 책의 목차를 봤을 때 배울 점이 많을 거 같다는 생각과 함께 선배가 하이브 책 중에서 이 책을 추천해서 절판 상태였지만 중고서적으로 겨우 구해서 읽었습니다. 하이브뿐만 아니라 하둡의 생태계까지 재밌게 읽으면서 봤습니다. - 이 책은 데이터 모델링부터 쿼리, 색인, 튜닝, 함수, 스토리지 핸들러, HCatalog 등의 고급 기능까지 총망라하여 제공하고 있습니다. - 이 책의 목적은 개발자, 데이터베이스 관리자, 아키텍트는 물론이고 비즈니스 분석가처럼 기술..

article thumbnail
데이터 분석 플랫폼 구축과 활용 - 스즈키 켄타, 요시다 켄타로
책 리뷰 2022. 11. 28. 20:28

책을 읽게 된 계기는 2가지가 있습니다. 이커머스에서 애플리케이션 서버를 운영할 때 로깅을 Fluentd를 사용하면서 Input, Parse, Filter, Buffer, Output을 설정하였고 Fluentd를 만든 treasure data사에 대해서 궁금한 부분이 몇 가지 있어서 읽게 되었습니다. treasure data사는 데이터 처리의 플랫폼으로 오픈 소스의 스트리밍 형 전송 도구인 Fluentd와 벌크 형 전송 도구인 Embulk를 개발한 곳입니다. 현재 treasure data 사의 CDP(Customer Data Platform)를 운영하면서 플랫폼에 대해서 공부를 하다가 이 책을 읽게 되었습니다. - 책은 이론을 설명하면서 그림과 실습형 소스코드 위주로 이루어져 있는데 로그에 대해서 자세하..

article thumbnail
Real MySQL 8.0 2권 - 백은빈, 이성욱
책 리뷰 2022. 11. 14. 22:50

- 서비스 운영 중 추천 시스템 배치에서 DB lock 운영 문제가 발생되었고 다른 서비스를 운영하면서 presto와 hive 엔진을 사용하며 sql 성능 최적화 및 튜닝 포인트에 관심이 가기 시작해서 책을 읽게 되었습니다. 이 책은 1권과 2권으로 나누어지며 2권에서는 쿼리의 실행 계획 분석 및 최적화, 스토어드 프로그램 개발, 데이터 모델링 및 최적의 데이터 타입 선정, 파티션 및 데이터 압축 활용, TDE를 활용한 데이터 암호화, GIS 및 전문 검색 기능 활용, Performance 스키마 및 Sys 스키마 활용에 관한 내용을 다루고 있습니다. - 책의 전반적인 내용은 다음과 같습니다. 쿼리 패턴별로 어떻게 처리되고 프로그램 코드를 상당히 줄일 수 있는 유용한 쿼리 패턴들을 예제와 소스코드를 활용..

article thumbnail
Real MySQL 8.0 1권 - 백은빈, 이성욱
책 리뷰 2022. 10. 17. 21:19

서비스 운영 중 추천 시스템 배치에서 DB lock 운영 문제가 발생되었던 적이 있었습니다. 추천 결과를 DB temp table로 export 하는 과정에서 Lost connection to MySQL server during query 에러가 발생하였고 방어 로직으로 재시도하였지만 lock wait timeout exceeded에러가 발생해서 배치 실패 경험이 있었습니다. 물론 spark와 airflow를 튜닝하면서 그 당시에는 쿼리 수정 및 에러 로그와 원론적인 부분만 팠었지만 현재 다른 서비스를 운영하면서 presto와 hive 엔진을 사용하며 sql 성능 최적화 및 튜닝 포인트에 관심이 가기 시작했습니다. MySQL에 대해서 디테일하게 배우고자 책을 선택하게 되었던 거 같습니다. - 이 책은 1..

article thumbnail
고성능 파이썬 2판 - 미샤 고렐릭, 이안 오스발트
책 리뷰 2022. 10. 5. 20:34

책을 선택하게 된 계기는 간단한 거 같습니다. 대용량 데이터를 다루면서 확장성 좋은 아키텍처가 필요하다고 느꼈고 프로젝트를 진행하면서 튜닝 포인트나 다른 프로젝트에서 나였다면 어떻게 행동했을까라는 생각을 하면서 파이썬에 대해서 디테일하게 배우고 싶어서 책을 읽게 되었습니다. - 이 책은 고성능 코드를 작성할 때 필요한 이론과 실무에 한 걸음 다가가고 싶은 분, 성능 좋은 시스템을 만드는 방법을 이해하고 싶은 모든 개발자, 파이썬을 충분히 사용해보았고 특정 부분이 왜 느린지 생각해본 적이 있으며, 이를 위한 해법으로 거론되는 사이썬(Cython), 넘파이, PyPy 같은 기술을 들어본 독자를 대상으로 하고 있습니다. 또, 다른 언어로 프로그래밍해본 경험이 있어서 성능을 개선하는 방법이 여러 가지임을 아는 ..