강좌
클라우드/리눅스에 관한 강좌입니다.
자격증 분류

NCE 자격증 이론정리 61편- Analytics 분야 - Cloud Hadoop의 핵심요약

작성자 정보

  • 관리자 작성
  • 작성일

컨텐츠 정보

본문

Cloud Hadoop의 핵심요약

 

-빅데이터를 쉽고 빠르게 처리할 수 있는 오픈소스 기반의 분석서비스

-Cloud Hadoop도 완전 관리형 서비스

-분석에 필요한 성능만큼 컴퓨팅 노드확장/축소 가능

-용량 걱정없이 저장할 수 있는 Object Storage 사용

-다양한 프래임워크 지원 : Core Hadoop, Hbase, Spark등의 오픈소스 프레임워크 제공

-Hbase : 분산되고 확장 가능한 대용량 데이터 저장소

-Spark : 대규모 데이터 처리를 위한 통합 분석 엔진

-Hive : 데이터웨어하우스 소프트웨어는 SQL을 사용하여 분산스토리지에 있는 대규모 데이터 세트의 읽기, 쓰기 및 관리를 용이하게한다.

-Presto : 빅데이터 용 분산 SQL 쿼리엔진

*설치되는 프로그램들 시험출제 잘됨

 

 

-대규모 데이터를 효율적으로 분석하기 위해서는 데이터 분산관리저장소, 파일시스템, 데이터베이스, 네트워크, 데이터분석 및 시각화도구등 다양한 기술들이 필요

-아파치재단에서 관리하는 빅데이터 분산처리를 위한 대표오픈소스 프레임워크

-여러대의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술

-분산저장(HDFS) : 빅데이터 파일을 여러대의 서버에 분산 저장하기 위한 파일시스템

-분산처리(MapReduce) : 각 서버에서 데이터를 분산 처리하는 분산병렬 처리를 위한 분석시스템

-HDFSMapReduce 프레임워크로 시작->데이터수집,저장,실행엔진,프로그래밍 및 데이터처리와 같은 다양한 서브프로젝트들이 점차 추가되면서 하둡 생태게(Hadoop Ecosystem)전반을 포함하는 의미로 확장, 발전

-따라서 그대로 사용하거나, 하둡전문 상용화 업체나 클라우드 업체를 통해서 사용가능

 

 

-Hadoop의 특징

 . 오픈소스, 분산저장, 유연한 확장성, 내결함성

 

관련자료

댓글 0
등록된 댓글이 없습니다.

공지사항


뉴스광장


  • 현재 회원수 :  60,037 명
  • 현재 강좌수 :  35,810 개
  • 현재 접속자 :  99 명