융무의 기술블로그
article thumbnail
Presto
Data Engeneering/presto 2023. 1. 24. 22:58

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/presto_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Presto Presto는 기가바이트에서 페타바이트에 이르는 다양한 데이터 소스에 대해 빠른 분석 쿼리를 실행하기 위한 오픈 소스 분산 SQL 엔진입..

article thumbnail
airflow 아키텍처
Data Engeneering/workflow 2023. 1. 24. 12:52

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/workflow/airflow_architecture.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 아키텍처 Airflow는 크게 다음과 같은 컴포넌트들로 구성되어 있습니다. DAG Directory 파이썬으로 작성된 DAG 파일을 저장하는 공간입니다..

article thumbnail
spark 최적화
Data Engeneering/spark 2023. 1. 18. 20:50

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_optimization.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 최적화 Spark 에는 최적화 기능들(optimizer) 을 갖추고 있습니다. 1.x 버전에서는 Rule-Based Optimizer만 ..

article thumbnail
Aiflow 개요
Data Engeneering/workflow 2023. 1. 18. 00:03

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/workflow/airflow_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Airflow Airflow는 파이썬으로 배치, 스케줄링, 모니터링 등을 한 번에 해결하는 워크플로 관리 플랫폼입니다. 일상적인 tasks 는 airflow를 통해서..

article thumbnail
Spark 튜닝
Data Engeneering/spark 2023. 1. 16. 23:46

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. RDD 사용 자제 Spark 작업의 경우 RDD보다 Dataset/DataFrame을 Dataset으로 사용하는 것이 좋습니다. DataFrame에는 Spark 워크로드의 성능을 개선하기 위한 여러 최적화 모듈이 포함되어 있습니다. PySpark 사용에서 Dataset의 RDD를 통한 DataFrame은 PySpark 애플리케이션에서 지원되지 않습니다. RDD를 사용하면 스파크가 최적화 기술을 적용하는 방법을 모르기 때문에 성능 문제가 직접 발생하고 RDD는 클러스터에 분산(재파티션 및 셔플링)할 때 데이터를 직렬화 및 역직렬화합니다.. 직렬화 및 역직렬화는 Spark 애플리케이션 또는 모든 분산 시스템에서..

article thumbnail
Failed to get device handle and/or partition ID for 0000000001340e90
Data Engeneering/Error 2022. 12. 12. 22:10

가상머신을 실행하기 위해 >vagrant up 명령어를 실행했는데 다음과 같은 에러가 발생하였다. Command: ["startvm", "49836682-e977-4861-a38c-51936ccf242e", "--type", "headless"] Stderr: VBoxManage.exe: error: Failed to get device handle and/or partition ID for 0000000001340e90 (hPartitionDevice=0000000000000aa5, Last=0xc0000002/1) (VERR_NEM_VM_CREATE_FAILED) VBoxManage.exe: error: Details: code E_FAIL (0x80004005), component ConsoleWr..

article thumbnail
AWS EMR notebook font error
Data Engeneering 2022. 7. 26. 22:39

EMR Jupter lab 노트북에서 스파크 커널을 사용할때 한국어 문자가 표시되지 않는 문제가 발생했었다. 최근 log4J 이슈로 인해 EMR 클러스터를 재배포를 하고 5.30.1에서 5.30.2로 버전 업데이트를 하고 emr 노트북에서 pyspark를 이용하여 ETL 프로세스를 진행하는 데 있어서 폰트이슈가 생겼다. 이를 해결하고자 emr 서버에서 fc-list확인, locale 언어 변경 등 다양한 방법을 시도해본 결과 오류가 버전업데이트 시 설정값 문제에 있는것으로 파악되었다. 주피터 노트북에서 프레임워크를 위한 인코딩으로 ISO-8895-1이 EMR version 5.30.2에 default로 되어있어서 한글 font를 사용하려면 UTF-8 encoding으로 지정을 해줘야한다. 해결 방법은 E..

article thumbnail
AWS Cloud Practitioner 합격 후기
Data Engeneering 2022. 3. 14. 22:57

데이터 엔지니어 실무를 하면서 AWS EMR, S3, Athena, Glue, EC2 등등 자연스럽게 인프라와 클라우드 쪽에도 관심이 많이 생기고 업무를 하면서 생소한 용어가 많다 보니 AWS에 대해 공부를 하게 되었던 거 같습니다. 시험 준비를 하면서 시험 후기를 남기려고 합니다. 1. 시험종류 aws Cloud Practitioner는 클라우드 기초 자격증으로서 Solution Architect를 준비하기 전에 기초 개념을 공부하는데 많은 도움이 될 거 같아서 시험을 보았으며 시험을 합격하면 aws 시험 50% 할인쿠폰을 줘서 경제적으로 이로운 점이 있습니다. 2. 공부 방법 일단 aws 클라우드 실무경험은 5개월 정도 있는 거 같으며 통계학이 base다 보니 전공지식은 없었습니다. 시험 준비를 하는..