융무의 기술블로그
article thumbnail
[Hadoop] Hadoop ECO System
Data Engeneering/Hadoop 2023. 5. 28. 15:26

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_eco.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어 기술 정리 데이터 엔지니어 기술 정리. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Data Ingestion Flume 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어로 클라우데라에서 개발한 ..

article thumbnail
Mapreduce & YARN
Data Engeneering/Hadoop 2023. 4. 2. 18:05

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_map_yarn.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Mapreduce MapReduce는 여러 컴퓨터에 걸쳐 분산된 방식으로 대규모 데이터 세트를 처리하기 위해 맞춤 제작된 프레임워크 맵리듀스 ..

article thumbnail
Hadoop & HDFS
Data Engeneering/Hadoop 2023. 4. 1. 15:07

실무에 사용한 데이터 엔지니어링 스킬에 대한 정리내용입니다. 개인적인 기록을 위해 작성하였습니다. https://github.com/mjs1995/muse-data-engineer/blob/main/doc/Batch%20Processing/hadoop_hdfs.md GitHub - mjs1995/muse-data-engineer: 데이터 엔지니어로 성장하기 데이터 엔지니어로 성장하기. Contribute to mjs1995/muse-data-engineer development by creating an account on GitHub. github.com Hadoop 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있습니..

article thumbnail
하둡 완벽 가이드 - 톰 화이트
책 리뷰 2022. 9. 19. 18:11

스파크를 공부하면서 하둡에 관심이 가기 시작했고 실무로 배우는 빅데이터 기술의 책을 읽고 간단한 사이드 프로젝트를 진행하면서 하둡 에코시스템에 대해 디테일하게 알고 싶어 책을 선택하게 되었습니다. - 2005년 더크 커팅이 오픈 소스로 공개한 하둡은 분산 저장 파일시스템인 HDFS와 분산 병렬 처리를 담당하는 맵리듀스로 구성되어 있음, 하둡이 나온 후 이를 기반으로 피그, 하이브, HBase, 스쿱, 플룸 등의 오픈 소스 기술이 등장했고, 이들을 모두 결합한 빅데이터 기술은 통칭하여 하둡 에코시스템이라고 부르게 되었음, 스파크의 등장으로 대용량 데이터를 저장하고 일괄 처리하는 수준에서 벗어나 머신러닝과 실시간 분석까지 아우르게 되었음 - 이 책은 하둡의 핵심, 하둡 에코시스템 관련 프로젝트, 하둡 사례 ..

article thumbnail
[wikidocs] 빅데이터 - 하둡, 하이브로 시작하기
책 리뷰 2022. 2. 23. 22:22

하둡과 Yarn 및 클러스터에 관해 구글링을 하던 중 유용한 wikidocs가 있어서 리뷰를 진행하였습니다. 해당 wikidocs의 주소는 아래와 같습니다. https://wikidocs.net/book/2203 빅데이터 - 하둡, 하이브로 시작하기 이 책은 하둡을 처음 시작하는 사람들을 대상으로 작성하였습니다. **하둡**은 빅데이터 기술의 시작점입니다. 하둡이 맵리듀스와 HDFS 기술을 소개하면서 빅데이터를 ... wikidocs.net 빅데이터에 수집, 정제, 적재, 분석, 시각화의 여러 단계에 관해서 관련 프레임워크나 오픈소스를 잘 설명하고 있으며 하둡과 Yarn에 대해 많은 정보를 얻어서 유익하였습니다. 빅데이터 에코시스템에 관해서 관련 기술과 특징들에 대해 전반적인 구조를 알 수 있으며 하둡과..