융무의 기술블로그
article thumbnail
[de zoomcamp] 02_워크플로 오케스트레이션
PJT 2023. 5. 1. 20:22

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/blob/main/02_workflow_orchestration/prefect_gcp.md GitHub - mjs1995/data-engineering-zoomcamp Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Prefect Cloud Storage 에서 BigQuery 데이터 베이스 로 Parquet 데이터를 수집하기 위해 Prefe..

article thumbnail
[de zoomcamp] 01_소개 및 사전 준비 사항
PJT 2023. 4. 30. 17:34

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/01_basics_n_setup GitHub - mjs1995/data-engineering-zoomcampGitHub에서 계정을 생성하여 mjs1995/data-engineering-zoomcamp 개발에 기여하십시오. github.com GCP 환경 세팅 프로젝트 이름에 dtc-de를 입력하고 프로젝트를 생성해 줍니다. SSH 세대 ssh-keygen을 이용해서 키를 생성해줍니다. 참고 링크 : https://cloud.google.com/compute/d..

article thumbnail
[de zoomcamp] Data Engineering Zoomcamp 소개
PJT 2023. 4. 30. 16:27

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp GitHub - mjs1995/data-engineering-zoomcamp Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com 아키텍처 프로젝트에 관한 세세한 아키텍처는 다음과 같습니다. Technologies 사용하게 될 기술은 다음과 같습니다. Google Cloud Platform (GCP): 구글의 클라우드 기반 자동 확장 플랫폼 Go..

article thumbnail
Mapreduce & YARN
Data Engeneering/Hadoop 2023. 4. 2. 18:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_map_yarn.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Mapreduce MapReduce는 여러 컴퓨터에 걸쳐 분산된 방식으로 대규모 데이터 세트를 처리하기 위해 맞춤 제작된 프레임워크 맵리듀스 ..

article thumbnail
데이터 레이크와 클라우드 DW
BI/DW 2023. 3. 24. 21:50

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/BI/data_lake.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 데이터 레이크 데이터 레이크는 추후에 특정한 용도로 사용될, 필터링되지 않은 이질적인 데이터를 대량으로 저장합니다. 데이터 레이크는 다양한 형식의 데이터를 원본 형식 또는 때에 따라..

article thumbnail
데이터 모델링과 DW/DM
BI/DW 2023. 3. 20. 00:28

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/BI/data_modeling_dw_dm.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 데이터 모델링 데이터 모델링 데이터모델링이란 현실에 존재하는 데이터를 전산화하기 위해 추상화 레벨을 결정하여 단순화, 가시화, 문서화시키는 작업 관리대상이 되는 정..

article thumbnail
OLLTP vs OLAP
BI/DW 2023. 3. 19. 16:10

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/BI/olap.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com OLTP vs OLAP 특성 트랜잭션 처리 시스템(OLTP) 분석 시스템(OLAP) 주요 읽기 패턴 질의당 적은 수의 레코드, 키 기준으로 가져옴 많은 레코드에 대한 집계 주요 쓰기 패턴 임..

article thumbnail
구글 클라우드 플랫폼 뽀개기 - 박정운
책 리뷰 2023. 3. 16. 22:56

GCP를 공부하기에 앞서서 GCP의 전반적인 서비스들을 쉽게 파악할 수 있는 기본서를 찾다가 이 책을 읽게 되었습니다. 이 책은 GCP의 다양한 서비스들의 개념을 세세하게 알려주고 있으며 실습 위주의 구성을 통해 구글 클라우드에 대해 알려주고 있습니다. 또한 실습 과정을 이미지를 통해서 보여주어서 이해하는데 좋았습니다. GCP에 어떤 서비스들이 있고 서비들을 어떻게 사용해야 하는지 하나하나 실습을 통해 알려주고 있습니다. 또한 서비스들의 역할이 무엇인지, 어떻게 사용하는지에 대해서 자세하게 설명해주고 있습니다. GCP 내 대표적인 서비스들에 대해서 기본을 접하는데 많은 도움이 되었습니다. 서비스 명 설명 Compute Engine 확장 가능한 고성능 VM 인스턴스 App Engine 웹 애플리케이션 배포..