클라우드

[KT클라우드]Big Data > Data Lake 테이블 매니저 App

데이터 통합은 매우 오래된, 많은 기업이 구현하고자 하는 과제입니다.

기업의 IT 시스템이 복잡해지고 그 종류가 늘어날 수록 데이터 통합에 대한 필요성은 커집니다.

데이터 통합을 위해 많은 기업들이 구사하는 전략은 크게 두가지로 나눠볼 수 있습니다.

논리적으로 데이터를 통합하는 형태인 데이터 페더레이션 계열과 물리적으로 데이터를 복제해 거대한 물리적 통합 저장소를 구성하는 데이터 콘솔리데이션 계열이 바로 그 두가지 유형입니다.

이 솔루션은 논리적/물리적 통합을 가능하게 만들어주는 빅데이터 처리 엔진인 아파치 스파크를 사용합니다.

아파치 스파크는 자체 데이터 소스 인터페이스를 가지고 있어 RDBMS와 같은 외부 정형 데이터 저장소의 테이블을 스파크 테이블로 매핑해 논리적으로 하나의 체계 안에서 인식 하도록 만들고 물리적으로 관리하는 자체 테이블과 결합하여 기업에 필요한 데이터를 만들어낼 수 있습니다.
기업이 이렇게 유연한 데이터 통합 체계를 구현하려면 관련 저장소와 관리형 테이블을 매핑하는 기능 뿐만아니라 중앙 집중적으로 데이터 자산을 관리하는 기능이 필요합니다.

이런 처리를 수행할 수 있도록 이 솔루션에서는 크게 두가지 기능을 제공합니다.

그리고 다른 한 가지가 설정된 연결 정보를 토대로 각 저장소의 저장 단위(파일 시스템의 파일 혹은 디렉터리, RDBMS의 테이블, 분산 메시지 큐의 토픽등)를 스파크 테이블로 매핑해 정의하는 기능을 제공하는 테이블 매니저 App 입니다. 테이블 매니저 App은 크게 두가지 기능을 제공합니다.
- 스파크 데이터베이스/테이블을 관리하는 기능
- 원천 저장소별 저장 단위를 스파크 테이블로 매핑하는 기능
- 스파크 테이블, 원천 저장소 상세보기 기능

이 솔루션을 사용하는 데이터 아키텍트나 관리자는 원천 저장소와의 연결정보를 관리하고, 사전에 데이터를 스파크 테이블로 매핑하는 과정을 담당합니다.

이 과정을 통해 이후에 노트북을 통해 데이터를 제어하는 과정을 매우 편리하게 만들 수 있습니다.

이 체계를 잘 유지하는 것이 이 솔루션을 활용하는데 매우 중요한 포인트라 할 수 있습니다.

테이블 매니저 App은 좌측 아이콘을 통해 저장소를 관리하는 화면을 이용하거나, 스파크 테이블을 관리하는 화면을 이용할 수 있습니다.

각 관리 화면은 크게 두 영역으로 나뉩니다.

화면의 왼쪽 영역에는 스파크 테이블과 저장소를 탐색할 수 있는 트리 영역이 있고, 메인 컨텐츠 영역에는 스파크 테이블이나 원천 저장소의 저장단위별 상세 정보를 확인하는 영역이 있습니다.