융무의 기술블로그
article thumbnail
[de zoomcamp] 02_워크플로 오케스트레이션
PJT 2023. 5. 1. 20:22

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/blob/main/02_workflow_orchestration/prefect_gcp.md GitHub - mjs1995/data-engineering-zoomcamp Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Prefect Cloud Storage 에서 BigQuery 데이터 베이스 로 Parquet 데이터를 수집하기 위해 Prefe..

article thumbnail
Prefect 개요
Data Engeneering/workflow 2023. 4. 26. 22:04

개인 공부를 위한 포스팅입니다. Prefect Prefect는 Python 기반 워크플로 관리 시스템입니다. Prefect를 사용하면 로깅, 재시도, 동적 매핑, 캐싱, 실패 알림 등을 데이터 파이프라인에 쉽게 추가할 수 있습니다 Prefect는 Dask 위에 구축되었으며 Dask를 사용하여 분산 환경에서 Prefect 워크플로의 실행을 예약하고 관리합니다. Prefect는 워크플로의 일정을 처리 하고 Dask는 각 워크플로 내 작업 의 일정 및 리소스 관리를 처리합니다. 작업 예약: Dask는 워크플로우 내에서 모든 작업 예약을 처리하므로 Prefect는 Dask가 밀리초 대기 시간으로 예약하는 더 작은 작업을 장려할 수 있습니다. Dataflow: Dask가 작업 간의 적절한 정보 직렬화 및 통신을 ..