융무의 기술블로그
article thumbnail
[de zoomcamp] 06_스트리밍
PJT 2023. 5. 21. 15:01

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/06_stream_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com docker에서 Spark 및 Kafka 실행 아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 피드의 분산 스트리밍, ..

article thumbnail
[de zoomcamp] 05_배치 처리
PJT 2023. 5. 7. 22:39

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/05_batch_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Dataproc Cloud Dataproc이란? 클라우드 네이트브 아파치 하둡 및 아파치 스파크 서비스 완전 관리형 클라우드 서비스이기에 더 간단..

article thumbnail
[de zoomcamp] 02_워크플로 오케스트레이션
PJT 2023. 5. 1. 20:22

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/blob/main/02_workflow_orchestration/prefect_gcp.md GitHub - mjs1995/data-engineering-zoomcamp Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Prefect Cloud Storage 에서 BigQuery 데이터 베이스 로 Parquet 데이터를 수집하기 위해 Prefe..

article thumbnail
python multiprocessing
Data Engeneering/python 2023. 3. 6. 00:17

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Programming%20Language/python_multiprocessing.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com multiprocessing CPU 바운드 VS I/O 바운드 CPU 바운드 : CPU 바운드는 작업을 완료하는 시간이 주..

article thumbnail
python Async
Data Engeneering/python 2023. 3. 5. 21:34

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Programming%20Language/python_Async.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 비동기 I/O blocking IO vs Non-blocking blocking IO 시스템 콜 요청 시 -> 커널 IO 작업 완료 시까지 ..

article thumbnail
python 컴파일
Data Engeneering/python 2023. 3. 5. 21:00

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Programming%20Language/python_comfile.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com C언어로 컴파일하기 코드를 빠르게 하는 가장 쉬운 방법은 처리할 작업의 양을 줄이는 것입니다. 이미 최적의 알고리즘을 사용하며 처리해야 ..

article thumbnail
python 프로파일링
Data Engeneering/python 2023. 3. 5. 16:10

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/tree/main/doc/Programming%20Language GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Python 개요 파이썬은 고수준 언어이면서 배터리 포함이라는 개념하에 다양한 도구를 기본 제공하므로 누구나 쉽게 데이터 전처리나 데이터 분석에 사용할 수 있습니다. 파..

article thumbnail
고성능 파이썬 2판 - 미샤 고렐릭, 이안 오스발트
책 리뷰 2022. 10. 5. 20:34

책을 선택하게 된 계기는 간단한 거 같습니다. 대용량 데이터를 다루면서 확장성 좋은 아키텍처가 필요하다고 느꼈고 프로젝트를 진행하면서 튜닝 포인트나 다른 프로젝트에서 나였다면 어떻게 행동했을까라는 생각을 하면서 파이썬에 대해서 디테일하게 배우고 싶어서 책을 읽게 되었습니다. - 이 책은 고성능 코드를 작성할 때 필요한 이론과 실무에 한 걸음 다가가고 싶은 분, 성능 좋은 시스템을 만드는 방법을 이해하고 싶은 모든 개발자, 파이썬을 충분히 사용해보았고 특정 부분이 왜 느린지 생각해본 적이 있으며, 이를 위한 해법으로 거론되는 사이썬(Cython), 넘파이, PyPy 같은 기술을 들어본 독자를 대상으로 하고 있습니다. 또, 다른 언어로 프로그래밍해본 경험이 있어서 성능을 개선하는 방법이 여러 가지임을 아는 ..