강좌
클라우드/리눅스에 관한 강좌입니다.
클라우드 분류

[KT클라우드]Big Data > Data Lake 테이블 매니저 App

작성자 정보

  • 관리자 작성
  • 작성일

컨텐츠 정보

본문

데이터 통합은 매우 오래된, 많은 기업이 구현하고자 하는 과제입니다.
기업의 IT 시스템이 복잡해지고 그 종류가 늘어날 수록 데이터 통합에 대한 필요성은 커집니다.
데이터 통합을 위해 많은 기업들이 구사하는 전략은 크게 두가지로 나눠볼 수 있습니다.
논리적으로 데이터를 통합하는 형태인 데이터 페더레이션 계열과 물리적으로 데이터를 복제해 거대한 물리적 통합 저장소를 구성하는 데이터 콘솔리데이션 계열이 바로 그 두가지 유형입니다.
이 솔루션은 논리적/물리적 통합을 가능하게 만들어주는 빅데이터 처리 엔진인 아파치 스파크를 사용합니다.
  • 아파치 스파크는 자체 데이터 소스 인터페이스를 가지고 있어 RDBMS와 같은 외부 정형 데이터 저장소의 테이블을 스파크 테이블로 매핑해 논리적으로 하나의 체계 안에서 인식 하도록 만들고 물리적으로 관리하는 자체 테이블과 결합하여 기업에 필요한 데이터를 만들어낼 수 있습니다.
  • 기업이 이렇게 유연한 데이터 통합 체계를 구현하려면 관련 저장소와 관리형 테이블을 매핑하는 기능 뿐만아니라 중앙 집중적으로 데이터 자산을 관리하는 기능이 필요합니다.
이런 처리를 수행할 수 있도록 이 솔루션에서는 크게 두가지 기능을 제공합니다.
  • 그 첫번째가 원천 데이터 저장소와의 연결 정보를 설정할 수 있는 저장소 관리 기능입니다.
  • 이 솔루션이 지원하고 있는 저장소의 유형은 다음과 같습니다.
  • - JDBC 연결 : mysql, mariadb
  • - 분산 큐 : Kafka
  • - 분산 파일 시스템 : Hadoop Distributed File System
  • - Object Storage : S3, Ceph
  • 그리고 다른 한 가지가 설정된 연결 정보를 토대로 각 저장소의 저장 단위(파일 시스템의 파일 혹은 디렉터리, RDBMS의 테이블, 분산 메시지 큐의 토픽등)를 스파크 테이블로 매핑해 정의하는 기능을 제공하는 테이블 매니저 App 입니다. 테이블 매니저 App은 크게 두가지 기능을 제공합니다.
  • - 스파크 데이터베이스/테이블을 관리하는 기능
  • - 원천 저장소별 저장 단위를 스파크 테이블로 매핑하는 기능
  • - 스파크 테이블, 원천 저장소 상세보기 기능
이 솔루션을 사용하는 데이터 아키텍트나 관리자는 원천 저장소와의 연결정보를 관리하고, 사전에 데이터를 스파크 테이블로 매핑하는 과정을 담당합니다.
이 과정을 통해 이후에 노트북을 통해 데이터를 제어하는 과정을 매우 편리하게 만들 수 있습니다.
이 체계를 잘 유지하는 것이 이 솔루션을 활용하는데 매우 중요한 포인트라 할 수 있습니다.
테이블 매니저 App은 좌측 아이콘을 통해 저장소를 관리하는 화면을 이용하거나, 스파크 테이블을 관리하는 화면을 이용할 수 있습니다.
각 관리 화면은 크게 두 영역으로 나뉩니다.
화면의 왼쪽 영역에는 스파크 테이블과 저장소를 탐색할 수 있는 트리 영역이 있고, 메인 컨텐츠 영역에는 스파크 테이블이나 원천 저장소의 저장단위별 상세 정보를 확인하는 영역이 있습니다.
  • 이제부터 화면 예시를 통해 테이블 매니저 App의 사용 방법을 알아봅니다.
테이블 트리(저장소 관리)
이 절에서는 저장소 관리 화면에서 왼쪽 영역에 있는 테이블 트리 영역의 사용 방법에 대해 알아봅니다. 테이블 트리 영역의 예시 화면은 다음과 같습니다.
  • 트리 상단부터 각 요소를 살펴보면 다음과 같습니다.
  • 1. 저장소 선택 : 저장소 관리 에서 정의한 저장소가 콤보 박스의 아이템으로 보여집니다.
  • 2. 메뉴 버튼 : 보고있는 저장소 트리 관련 추가 기능을 제공합니다.
  • 2.1 새로고침 : 저장소 목록과 선택한 저장소의 데이터 아이템 목록을 재조회합니다.
  • 2.2 저장소 편집 : 저장소 관리 화면으로 이동하여 저장소를 편집할 수 있게 합니다.
  • 2.3 상세보기 : 선택한 저장소가 있을 때에만 보이는 메뉴입니다. 해당 저장소의 상세 정보를 확인할 수 있습니다.
  • 3. 데이터 아이템 검색 : 각 아이템 이름 중 키워드에 부분일치 하는 아이템만을 트리로 표현합니다.
  • 4. 트리 아이템 : 트리의 각 아이템은 각 저장소의 저장단위를 나타냅니다. 가령 CEPH라면 디렉터리와 파일이 됩니다.
  • 4.1 노드를 확장하려면 해당 아이템의 확장 버튼을 클릭합니다.
  • 4.2 각 아이템의 우클릭하면 저장소 유형에 맞는 컨텍스트 메뉴가 표시됩니다.
  • 4.3 각 아이템을 클릭하면 우측 컨텐츠 영역에 상세 정보가 표시됩니다.
테이블 트리(스파크 테이블 관리)
이 절에서는 스파크 테이블 관리 화면에서 왼쪽 영역에 있는 테이블 트리 영역의 사용 방법에 대해 알아봅니다.
테이블 트리 영역의 예시 화면은 다음과 같습니다.
  • 트리 상단부터 각 요소를 살펴보면 다음과 같습니다.
  • 1. 새로고침 : 스파크 데이터베이스와 테이블 목록을 재조회합니다..
  • 2. 데이터 아이템 검색 : 각 아이템 이름 중 키워드에 부분일치 하는 아이템만을 트리로 표현합니다.
  • 3. 트리 아이템 : 트리의 각 아이템은 스파크 데이터베이스 또는 스파크 테이블을 나타냅니다.
  • 3.1 노드를 확장하려면 해당 아이템의 확장 버튼을 클릭합니다.
  • 3.2 각 아이템의 우클릭하면 저장소 유형에 맞는 컨텍스트 메뉴가 표시됩니다.
  • 3.3 각 아이템을 클릭하면 우측 컨텐츠 영역에 상세 정보가 표시됩니다.
  • 4. 데이터베이스 생성 : 스파크 테이블을 선택한 경우 이 버튼을 클릭해 스파크 데이터베이스를 생성할 수 있습니다.
  • 각 저장소 별로 아이템에 우클릭했을 때 볼 수 있는 컨텍스트 메뉴의 목록은 다음과 같습니다.
스파크 테이블 선택시
스파크 테이블을 선택하면 데이터베이스와 테이블에 대한 확장 메뉴를 사용할 수 있습니다.
먼저, 데이터베이스에서 확장 메뉴 아이콘을 클릭했을 때 선택할 수 있는 메뉴에 대해 알아봅니다.
  • - 데이터베이스 삭제 : 해당 데이터베이스를 삭제합니다. 하위에 테이블이 존재하는 데이터베이스는 삭제할 수 없습니다. 이 동작은 이벤트 기록으로 남게 됩니다.
다음으로 테이블에서 확장 메뉴 아이콘을 클릭했을 때 선택할 수 있는 메뉴에 대해 알아봅니다.
  • - 스파크 테이블 삭제 : 해당 스파크 테이블을 삭제합니다.
  • - 스파크 테이블 수정 : 해당 스파크 테이블을 수정합니다.
<주의사항>
  • 선택한 스파크 테이블이 외부에서 생성한 테이블인 경우 삭제가 불가능합니다.
<주의사항>
  • 스파크 뷰(VIEW) 테이블은 수정 기능을 제공하지 않습니다.
JDBC 선택시
  • 스파크 테이블로 등록 : 해당 테이블을 스파크 테이블로 매핑하는 모달이 표시됩니다.
CEPH 선택시
CEPH은 오브젝트 스토리지이므로 폴더와 파일의 계층으로 이루어집니다. 먼저 디렉터리의 확장 메뉴 클릭시 선택할 수 있는 메뉴에 대해 알아봅니다.
경로 추가 : 새로운 디렉터리를 생성합니다. 클릭시 아래와 같은 모달창이 표시되며 디렉터리명을 입력하고 확인을 클릭해 새로운 디렉터리를 만들 수 있습니다.
파일 업로드 : 해당 경로에 로컬 환경에 있는 파일을 업로드 하는 모달 창이 표시됩니다.
경로 삭제 : 디렉터리를 삭제합니다. 클릭시 아래와 같은 모달창이 표시되며 확인 버튼을 클릭하면 해당 경로가 삭제됩니다.
스파크 테이블 등록 : 해당 디렉터리를 LOCATION으로 하는 스파크 테이블을 등록하는 모달이 표시됩니다.
이어서 파일의 확장 메뉴 클릭시 선택할 수 있는 메뉴에 대해 알아봅니다.
  • - 파일 삭제 : 파일을 삭제합니다.
  • - 스파크 테이블 등록 : 해당 파일을 LOCATION으로 하는 스파크 테이블을 등록하는 모달이 표시됩니다.
Kafka 선택시

관련자료

댓글 0
등록된 댓글이 없습니다.

공지사항


뉴스광장


  • 현재 회원수 :  60,037 명
  • 현재 강좌수 :  35,807 개
  • 현재 접속자 :  159 명