융무의 기술블로그
article thumbnail
데이터 과학자 원칙 - 이정원 외 8인
책 리뷰 2023. 6. 11. 21:51

"데이터 리더 9인이 말하는 데이터 과학자의 원칙과 철학"은 한데모 책나눔 이벤트를 통해 운이 좋게도 책을 받아 읽을 수 있었습니다. 이 책은 데이터 과학자로서의 성장에 관한 내용을 다루고 있으며, 개인의 성장부터 팀과 조직의 성장까지 다양한 주제를 다루고 있습니다. 이 책은 데이터로 실무를 하는 엔지니어부터 분석가 및 과학자들까지 읽으면 좋을 것 같습니다. 책에는 데이터 리더들의 많은 철학과 경험을 통해 데이터를 다루는 방향을 제시해 주는데, 이는 데이터 업무에 종사하는 사람들에게 매우 유익한 내용일 거 같습니다. 각 저자들은 자신의 경험과 사례를 통해 이야기를 전달하고 있으며, 그들의 경험과 철학을 통해 데이터 과학자로서 성장하고 방향을 잡을 수 있을 것입니다. 이 책은 데이터 과학자로서의 역할과 책..

article thumbnail
도메인 주도 설계 첫걸음 - 블라드 코노노프
책 리뷰 2023. 5. 28. 15:47

이 책은 가상 면접 사례로 배우는 대규모 시스템 설계 기초 책과 같이 추천을 받아서 읽게 된 책입니다. 도메인 주도 설계의 원칙과 패턴은 주니어, 시니어, 지원팀, 수석 등 모든 레벨의 소프트웨어 엔지니어에 유요한 책으로 데이터를 다루시는 분들은 가볍게 읽는 것을 권장드립니다. DDD는 소프트웨어를 모델링하고 효과적으로 구현하는 데 필요한 도구와 기법을 제공할 뿐만 아니라, 소프트웨어를 모델링하고 효과적으로 구현하는 데 필요한 도구와 기법을 제공할 뿐만 아니라, 소프트웨어 엔지니어링에서 자주 간과되는 관점인 맥락에 대해 밝혀주며 소프트웨어 엔지니어링의 중요한 관점에 대해서 배웠습니다. 이 책은 전략적 설계, 전술적 설계, DDD 실무, DDD와 다른 방법론 및 패턴과의 관계로 크게 네 개의 패턴으로 나누..

article thumbnail
[Hadoop] Hadoop ECO System
Data Engeneering/Hadoop 2023. 5. 28. 15:26

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_eco.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어 기술 정리 데이터 엔지니어 기술 정리. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Data Ingestion Flume 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어로 클라우데라에서 개발한 ..

article thumbnail
[de zoomcamp] 06_스트리밍
PJT 2023. 5. 21. 15:01

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/06_stream_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com docker에서 Spark 및 Kafka 실행 아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 피드의 분산 스트리밍, ..

article thumbnail
[Snowflake] Hands-On Essentials - data warehouse
BI/Snowflake 2023. 5. 14. 21:36

스노우 플레이크에 대해 알아보며 Hands-On Essentials data warehouse과정을 진행한 포스팅 내용입니다. Hands-On Essentials - data warehouse https://learn.snowflake.com/en/courses/uni-essdww101/ https://learn.snowflake.com/en/courses/uni-essdww101/ Hands-On Essentials Series This course is the first in the Hands On Essentials Series. This series allows you to earn a Badge for display on LinkedIn and other social media. The Esse..

article thumbnail
[snowflake] snowflake 아키텍처
BI/Snowflake 2023. 5. 13. 21:33

스노우 플레이크에 대해 알아보며 Hands-On Essentials data warehouse과정을 진행한 포스팅 내용입니다. Snowflake 아키텍처 스노우플레이크의 고유한 설계는 저장소와 컴퓨팅을 물리적으로 분리하지만 논리적으로 통합하며, 보안 및 관리와 같은 서비스를 제공합니다. 스노우플레이크 하이브리드 모델 아키텍처는 세 개의 레이어로 구성되어 있습니다. 클라우드 서비스 레이어, 컴퓨팅 레이어, 데이터 저장소 레이어입니다. 클라우드 서비스 레이어 Snowflake 클라우드 서비스 레이어는 인증, 액세스 제어 및 암호화와 같은 활동을 조정하는 서비스 모음입니다. 인프라 및 메타데이터 처리를 담당하는 관리 기능과 쿼리 구문 분석 및 최적화 기능을 포함합니다. 사용자가 로그인 요청을 시작하는 시점부터..

article thumbnail
[snowflake] snowflake 개요
BI/Snowflake 2023. 5. 13. 00:03

스노우 플레이크에 대해 알아보며 Hands-On Essentials data warehouse과정을 진행한 포스팅 내용입니다. Snowflake SaaS(Software-as-a-Service) 모델로 제공되는 구조화된 데이터와 반 구조화된 데이터 모두를 지원하는 데이터웨어 하우스입니다. Snowflake는 빠르고 사용자 친화적이며 기존 데이터웨어 하우스보다 더 많은 유연성을 제공합니다. Snowflake는 Snowflake Elastic Data Warehouse의 형태로 클라우드 기반 데이터 스토리지 및 분석을 제공합니다. 사용자는 클라우드 기반 하드웨어 및 소프트웨어를 사용하여 데이터를 분석하고 저장할 수 있습니다. 특징 클라우드 기반: 클라우드 기반 데이터 웨어하우스로, 클라우드에서 데이터 분석을..

article thumbnail
도커 개요
Back-End Development/Docker 2023. 5. 12. 00:10

사이드 PJT를 진행하면서 도커 배포를 위한 정리를 위해 작성된 글입니다. Docker 리눅스의 응용 프로그램들을 프로세스 격리 기술들을 사용해 컨테이너로 실행하고 관리하는 오픈소스 프로젝트입니다. 도커 컨테이너는 일종의 소프트웨어를 소프트웨어의 실행에 필요한 모든 것을 포함하는 완전한 파일 시스템 안에 감쌉니다. 여기에는 코드, 런타임, 시스템 도구, 시스템 라이브러리 등 서버에 설치되는 무엇이든 아우릅니다. 이는 실행 중인 환경에 관계없이 언제나 동일하게 실행될 것을 보증합니다. 독립적인 컨테이너가 하나의 리눅스 인스턴스 안에서 실행할 수 있게 함으로써 가상 머신을 시작하여 유지보수해야 하는 부담을 없애줍니다. 도커 vs Virtual Machine(VM) 기존의 VM은 새로운 가상환경을 추가할 때마..

article thumbnail
[Spark Streaming] WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
Data Engeneering/Error 2023. 5. 10. 00:05

Spark Streaming 관련해서 에러가 발생하였습니다. 에러는 아래 포스팅과 관련 있습니다. https://mjs1995.tistory.com/275 [Spark Streaming] py4j.protocol.Py4JJavaError: An error occurred while calling o121.start.: java.lang.IllegalStateException: Rpc spark-submit 명령어를 실행시켰을 때 아래와 같은 에러가 발생했 습니다. py4j.protocol.Py4JJavaError: An error occurred while calling o121.start. : java.lang.IllegalStateException: RpcEnv has been stopped 이 에러..

article thumbnail
[Spark Streaming] py4j.protocol.Py4JJavaError: An error occurred while calling o121.start.: java.lang.IllegalStateException: RpcEnv has been stopped
Data Engeneering/Error 2023. 5. 9. 23:56

spark-submit 명령어를 실행시켰을 때 아래와 같은 에러가 발생했 습니다. py4j.protocol.Py4JJavaError: An error occurred while calling o121.start. : java.lang.IllegalStateException: RpcEnv has been stopped 이 에러는 Spark Streaming job을 실행할 때 발생할 수 있는 에러로 Spark Streaming job이 동작하는 동안 RPC (Remote Procedure Call) 환경이 멈춘 경우 발생합니다. 이 에러를 해결하려면 Spark job이 제대로 종료되지 않아서 이전 실행 중에 생성된 RPC 환경이 아직 실행 중인 경우도 있을 수 있어서 이전 Spark job을 종료하고 다시..