융무의 기술블로그
article thumbnail
Prefect 개요
Data Engeneering/workflow 2023. 4. 26. 22:04

개인 공부를 위한 포스팅입니다. Prefect Prefect는 Python 기반 워크플로 관리 시스템입니다. Prefect를 사용하면 로깅, 재시도, 동적 매핑, 캐싱, 실패 알림 등을 데이터 파이프라인에 쉽게 추가할 수 있습니다 Prefect는 Dask 위에 구축되었으며 Dask를 사용하여 분산 환경에서 Prefect 워크플로의 실행을 예약하고 관리합니다. Prefect는 워크플로의 일정을 처리 하고 Dask는 각 워크플로 내 작업 의 일정 및 리소스 관리를 처리합니다. 작업 예약: Dask는 워크플로우 내에서 모든 작업 예약을 처리하므로 Prefect는 Dask가 밀리초 대기 시간으로 예약하는 더 작은 작업을 장려할 수 있습니다. Dataflow: Dask가 작업 간의 적절한 정보 직렬화 및 통신을 ..

article thumbnail
dbt(Data Build Tool) 개요
Data Engeneering/workflow 2023. 4. 26. 00:01

개인 공부를 위한 포스팅입니다. dbt dbt(Data Build Tool)는 개발자가 BigQuery, Snowflake, Redshift 등과 같은 최신 데이터 웨어하우스에서 변환을 정의, 오케스트레이션 및 실행할 수 있도록 하여 데이터 모델 구축을 간소화하는 Python 오픈 소스 라이브러리입니다. ETL/ELT 프로세스의 T에 초점을 맞춘 거버넌스 도구라고 말할 수 있습니다. 이를 통해 SQL에서 모든 데이터 변환을 중앙 집중화하고 구축하여 재사용 가능한 모듈(모델)로 구성할 수 있습니다 dbt는 데이터 모델링을 SQL로 정의하고 관리하며, 모델이 실행될 때 데이터를 추출, 가공 및 저장할 수 있도록 도와줍니다. dbt는 Git 버전 관리 시스템을 사용하여 데이터 모델링 파일을 관리하며, 테스트,..

article thumbnail
embulk 코드

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. Embulk Embulk에 대한 자세한 내용은 링크를 참고해 주세요. https://mjs1995.tistory.com/242 embulk & digdag 실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/embulk.md GitHub - mjs1995/muse-data-eng mjs1995.tistory.com embulk를 설치합니다. # JRE 설치 sudo apt install default-jre # embulk ..

article thumbnail
Google Compute Engine ssh: connect to host <IP> port 22: Operation timed out 에러
Data Engeneering/Error 2023. 4. 4. 22:43

ERROR 로컬 터미널에서 GCP의 VM으로 연결을 하고 사이드프로젝트를 진행을 하는데 ssh 연결이 안 되었습니다. timed out 에러가 발생하여서 vm 인스턴스를 종료한 뒤에 수정을 누르고 자동화 부분에 해당 코드를 입력하고 인스턴스를 다시 시작합니다. #! /bin/bash sudo ufw allow 22 위 경우에도 에러가 해결이 안 될 때가 있는데 인스턴스 정지 후 다시 시작하면 ip가 종종 바뀌게 되는데 이때 다시 수정을 해주고 연결을 해주면 됩니다. 먼저 기존에 VM인스턴스 외부 IP를 이용해서 접속이 잘 되는지 확인해 봅니다. ssh -i ~/.ssh/gcp {ssh키 생성시 입력한 ID}@{VM 생성시 외부IP} 연결은 잘 되고 있으며 기존에 설정해 놨던 config에서 설정값을 바꿔..

article thumbnail
Mapreduce & YARN
Data Engeneering/Hadoop 2023. 4. 2. 18:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_map_yarn.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Mapreduce MapReduce는 여러 컴퓨터에 걸쳐 분산된 방식으로 대규모 데이터 세트를 처리하기 위해 맞춤 제작된 프레임워크 맵리듀스 ..

article thumbnail
Hadoop & HDFS
Data Engeneering/Hadoop 2023. 4. 1. 15:07

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_hdfs.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Hadoop 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있습니..

article thumbnail
embulk & digdag

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/embulk.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Embulk 일반적인 데이터 처리 워크플로우 수집(Ingest/Collect) - 애플리케이션 로그, 유저 속성 정보, 광고의 인상, 서드파치쿠키 전처리(Enri..

article thumbnail
CDC - 변경 데이터 캡처

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/cdc.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 지속적 변화 수집 패턴 조직이 성숙해지면 일괄 수집을 넘어 변경 데이터 캡처(CDC, Change Data Capture) 패턴으로 이동합니다. 데이터베이스에 기록하는..