융무의 기술블로그
article thumbnail
embulk & digdag

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/embulk.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Embulk 일반적인 데이터 처리 워크플로우 수집(Ingest/Collect) - 애플리케이션 로그, 유저 속성 정보, 광고의 인상, 서드파치쿠키 전처리(Enri..

article thumbnail
CDC - 변경 데이터 캡처

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/cdc.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 지속적 변화 수집 패턴 조직이 성숙해지면 일괄 수집을 넘어 변경 데이터 캡처(CDC, Change Data Capture) 패턴으로 이동합니다. 데이터베이스에 기록하는..

article thumbnail
이진로그 - binary log(binlog)

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Data%20Ingestion/binlog.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 이진로그 MySQL 데이터베이스에서 데이터 추출 SQL을 사용한 전체 또는 증분 추출 이진 로그(binlog) 복제 (스트리밍 데이터 수집을 수행하는 하나의 경로..

article thumbnail
python Async
Data Engeneering/python 2023. 3. 5. 21:34

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Programming%20Language/python_Async.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 비동기 I/O blocking IO vs Non-blocking blocking IO 시스템 콜 요청 시 -> 커널 IO 작업 완료 시까지 ..

article thumbnail
python 컴파일
Data Engeneering/python 2023. 3. 5. 21:00

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Programming%20Language/python_comfile.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com C언어로 컴파일하기 코드를 빠르게 하는 가장 쉬운 방법은 처리할 작업의 양을 줄이는 것입니다. 이미 최적의 알고리즘을 사용하며 처리해야 ..

article thumbnail
hiveQL
Data Engeneering/hive 2023. 3. 1. 23:52

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_hiveql.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com HiveQL : 쿼리 하이브는 오버 플로우나 언더플로우가 발생할 때 더 넓은 범위의 데이터형이 존재하더라도 결과를 자동으로 변환하지 않는 자바 데이터..

article thumbnail
hive 저장 포맷
Data Engeneering/hive 2023. 3. 1. 00:08

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_format.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 저장 포맷 하이브는 두 개의 차원, 즉 로우 포맷과 파일 포맷으로 테이블 저장소를 관리합니다. 로우 포맷은 행과 특정 행의 필드가 저장된 방식을 지시..

article thumbnail
hive 아키텍처
Data Engeneering/hive 2023. 2. 28. 00:02

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hive_architecture.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Hive Architecture HiveQL HiveQL은 하이브의 SQL언어인 HiveQL은 SQL-92, MySQL, 오라클 SQL을 ..