융무의 기술블로그
article thumbnail
python 프로파일링
Data Engeneering/python 2023. 3. 5. 16:10

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/tree/main/doc/Programming%20Language GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Python 개요 파이썬은 고수준 언어이면서 배터리 포함이라는 개념하에 다양한 도구를 기본 제공하므로 누구나 쉽게 데이터 전처리나 데이터 분석에 사용할 수 있습니다. 파..

article thumbnail
hiveQL
Data Engeneering/hive 2023. 3. 1. 23:52

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_hiveql.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com HiveQL : 쿼리 하이브는 오버 플로우나 언더플로우가 발생할 때 더 넓은 범위의 데이터형이 존재하더라도 결과를 자동으로 변환하지 않는 자바 데이터..

article thumbnail
hive 저장 포맷
Data Engeneering/hive 2023. 3. 1. 00:08

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_format.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 저장 포맷 하이브는 두 개의 차원, 즉 로우 포맷과 파일 포맷으로 테이블 저장소를 관리합니다. 로우 포맷은 행과 특정 행의 필드가 저장된 방식을 지시..

article thumbnail
hive 아키텍처
Data Engeneering/hive 2023. 2. 28. 00:02

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_architecture.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Hive Architecture HiveQL HiveQL은 하이브의 SQL언어인 HiveQL은 SQL-92, MySQL, 오라클 SQL을 ..

article thumbnail
hive
Data Engeneering/hive 2023. 2. 27. 21:58

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Hive 하둡 기반의 데이터 웨어하우징 프레임워크로, 빠른 속도로 성장하는 페이스북의 소셜 네트워크에서 매일같이 생산되는 대량의 데이터를 관리하고 학습..

article thumbnail
Certified Kubernetes Administrator (CKA) 합격 후기

- 최근 데이터 엔지니어가 다루는 대부분의 데이터 플랫폼이 Kubernetes를 기반으로 하는 곳이 많아지면서 데이터 파이프라인의 배포, 관리, 확장 등에 대한 전반적인 이해와 클러스터 자원의 효율적인 사용 및 장애 대응 능력을 기르고자 공부를 진행하였습니다. - CKA를 공부하면서 Kubernetes 클러스터에서 쿠버네티스 애플리케이션을 설치, 구성, 유지 관리 및 모니터링 스킬을 배웠으며 Kubernetes 클러스터에서 데이터 파이프라인을 운영을 할 때 도움이 될 거 같습니다. - 2023년에 1월부터 CKA 스터디를 참여하고 2월에 CKA 자격증 시험을 보았습니다. 시험 관련해서 후기 및 팁을 남기고자 합니다. - 시험은 온라인 원격 시험으로 총 120분 동안 17 문제를 풀어야 합니다. 100점 ..

article thumbnail
Presto Query Processing
Data Engeneering/presto 2023. 2. 4. 17:08

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/presto_query_processing.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 실행계획 쿼리 실행 계획은 다음과 같습니다. explain analyze select * from open_data.highwa..

article thumbnail
presto tuning
Data Engeneering/presto 2023. 2. 4. 16:52

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/presto_tuning.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Presto 조인 및 정렬 알고리즘 선택 Partitioned Partitioned : 쿼리에 참여하는 각 노드는 데이터의 일부에서 해시 테이블을..