융무의 기술블로그
article thumbnail
[de zoomcamp] 06_스트리밍
PJT 2023. 5. 21. 15:01

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/06_stream_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com docker에서 Spark 및 Kafka 실행 아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 피드의 분산 스트리밍, ..

article thumbnail
[Spark Streaming] WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
Data Engeneering/Error 2023. 5. 10. 00:05

Spark Streaming 관련해서 에러가 발생하였습니다. 에러는 아래 포스팅과 관련 있습니다. https://mjs1995.tistory.com/275 [Spark Streaming] py4j.protocol.Py4JJavaError: An error occurred while calling o121.start.: java.lang.IllegalStateException: Rpc spark-submit 명령어를 실행시켰을 때 아래와 같은 에러가 발생했 습니다. py4j.protocol.Py4JJavaError: An error occurred while calling o121.start. : java.lang.IllegalStateException: RpcEnv has been stopped 이 에러..

article thumbnail
[Spark Streaming] py4j.protocol.Py4JJavaError: An error occurred while calling o121.start.: java.lang.IllegalStateException: RpcEnv has been stopped
Data Engeneering/Error 2023. 5. 9. 23:56

spark-submit 명령어를 실행시켰을 때 아래와 같은 에러가 발생했 습니다. py4j.protocol.Py4JJavaError: An error occurred while calling o121.start. : java.lang.IllegalStateException: RpcEnv has been stopped 이 에러는 Spark Streaming job을 실행할 때 발생할 수 있는 에러로 Spark Streaming job이 동작하는 동안 RPC (Remote Procedure Call) 환경이 멈춘 경우 발생합니다. 이 에러를 해결하려면 Spark job이 제대로 종료되지 않아서 이전 실행 중에 생성된 RPC 환경이 아직 실행 중인 경우도 있을 수 있어서 이전 Spark job을 종료하고 다시..

article thumbnail
[de zoomcamp] 05_배치 처리
PJT 2023. 5. 7. 22:39

데이터 엔지니어링 줌 캠프 PJT를 진행하면서 관련된 내용을 정리하고자 합니다. 프로젝트의 코드는 github에서 확인할 수 있습니다. https://github.com/mjs1995/data-engineering-zoomcamp/tree/main/05_batch_processing GitHub - mjs1995/data-engineering-zoomcamp: PJT PJT. Contribute to mjs1995/data-engineering-zoomcamp development by creating an account on GitHub. github.com Dataproc Cloud Dataproc이란? 클라우드 네이트브 아파치 하둡 및 아파치 스파크 서비스 완전 관리형 클라우드 서비스이기에 더 간단..

article thumbnail
spark 개요
Data Engeneering/spark 2023. 2. 1. 00:07

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_base.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 스파크 워크로드 스파크는 하둡 맵리듀스보다 최대 100배 더 빠르다고 합니다. 왜냐하면 스파크는 하드 드라이브로 읽고 쓰는 대신에 인 메모리(In-Me..

article thumbnail
spark join and shuffle
Data Engeneering/spark 2023. 1. 26. 23:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_join.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com 스파크의 조인 수행 방식 노드 간 네트워크 통신 전략으로 스파크는 조인 시 두 가지 클러스터 통신 방식을 활용합니다. 노드별 연산 전략 전체 노드간 통..

article thumbnail
spark 클러스터 매니저
Data Engeneering/spark 2023. 1. 25. 22:42

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_cluster_manager.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Spark 클러스터 스파크는 마스터/슬레이브 구조를 사용하며, 중앙 조정자인 드라이버와 여러 분산 작업 노드인 익스큐터로 구성됩니다..

article thumbnail
spark yarn
Data Engeneering/spark 2023. 1. 25. 22:36

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/spark_yarn.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com YARN YARN을 사용하면 그래프 처리, 대화형 처리, 스트림 처리, 일괄 처리와 같은 다양한 데이터 처리 방법을 통해 HDFS에 저장된 데이터를 실..