강좌
클라우드/리눅스에 관한 강좌입니다.
클라우드 분류

[KT클라우드]Big Data > Data Lake 스케줄러 App

작성자 정보

  • 관리자 작성
  • 작성일

컨텐츠 정보

본문

빅데이터 시스템을 기업의 운영 환경에 적용하려면 데이터 원천을 조사하고 데이터 변환 규칙을 정의해 노트북 App 을 통해 그 과정을 명세화하고 워크플로우를 이용해 연관된 데이터 변환 과정과 연결하는 작업을 하게 됩니다.
하지만, 이런 과정은 한 번의 연산으로 끝나지 않음으로 주기적, 반복적으로 실행해야만 합니다.
일반적인 기업의 IT 시스템은 이런 작업을 자동으로 트리거링하기 위해 스케줄러 애플리케이션을 사용합니다.
이 솔루션에서는 스케줄러 App 을 이용해 데이터 처리와 흐름을 자동화합니다.
사용자는 노트북 App 을 이용해 데이터 변환 과정이나 머신러닝 모델 생성과정을 정의하고 워크플로우를 이용해 다른 처리와 선·후행 관계를 정의합니다.
이렇게 정의된 노트북과 워크플로우는 스케줄러에 정해진 시점에 맞춰 자동으로 실행되므로 최신 스파크 테이블 데이터와 머신러닝 모델을 얻을 수 있습니다.
스케줄러에 등록할 수 있는 유형은 다음과 같습니다.
- 노트북 코드 실행
- 워크플로우 실행
- 대시보드 리포트 배포
화면 예시를 따라 스케줄러 App의 사용 방법을 알아봅니다.
스케줄러 App 은 두 개의 화면으로 구성되어 있습니다.
- 스케줄러 관리 화면
- 스케줄러 실행 이력 확인 화면
스케줄 관리 화면
좌측 bar에 있는 달력 아이콘 을 선택하면 스케줄을 관리할 수 있는 화면이 표시됩니다.
이 메뉴는 하나의 화면에 스케줄러 목록과 상세 정보를 보는 영역이 함께 배치되어 있습니다.
모든 관리 활동의 기준은 좌측의 목록 영역부터 시작됩니다.
스케줄 목록
스케줄러 목록의 세부 사용 방법은 다음과 같습니다.
  • • 이름 검색 : 스케줄 이름 중 일부를 입력하고 엔터 및 우측 검색 아이콘 을 선택하면 해당하는 스케줄만 목록에 필터링 됩니다.
  • • 목록 더 보기 : 검색 결과가 목록에 표시할 수 있는 수(MAX. 10)를 초과하면 페이지 네이션으로 더 많은 스케줄을 확인할 수 있습니다.
  • • 선택 : 스케줄 목록에서 특정 스케줄 이름을 클릭하면 우측 콘텐츠 영역에 입력 양식이 표시됩니다.
  • • 생성 버튼 : 새로운 스케줄을 등록하고 싶은 경우 +스케줄 생성 버튼을 클릭해 스케줄 정보를 입력할 수 있습니다.
스케줄 설정
설정 영역에서는 새로운 스케줄을 생성하거나 기존 스케줄을 수정하는 과정은 크게 다르지 않습니다. 이 절에서는 신규 스케줄 등록 방법을 설정 화면 예제로 알아봅니다.
  • • 이름 : 해당 스케줄을 식별할 수 있는 고유의 이름을 입력합니다.
  • • 대상 유형 : 이 장의 서두에 나열한 실행대상 App의 유형을 지정합니다.
  • • 대상 선택 : 대상 유형에 맞는 특정 App 인스턴스 하나를 지정합니다.
  • • 사용 여부 : 스케줄러를 사용할지 여부를 지정합니다.
  • • 설명 : 스케줄러의 역할을 알 수 있는 내용을 입력합니다.
  • • 주기 설정
  • - Crontab 문법 : Crontab 문법이 익숙한 경우 텍스트 필드에 직접 값을 입력합니다.
  • - 주기 조건 선택 : 화면의 콤보박스를 선택해 스케줄 규칙을 지정합니다. 이 값을 입력하면 상단의 Crontab 문법 항목이 채워집니다.
  • • 삭제 버튼 : 스케줄 상세화면 영역 우측 하단의 삭제 아이콘 을 클릭하면 확인 창이 나옵니다. 여기서 삭제 버튼을 클릭하면 선택한 스케줄은 삭제됩니다.
  • 모든 항목을 저장하고 하단의 적용 버튼을 클릭하면 새로운 스케줄 정보가 등록됩니다. 이 과정은 스케줄 정보를 수정하는 경우에도 동일하게 적용됩니다.
※ 스케줄 규칙을 정의하는 방법은 표준 crontab 문법을 따릅니다.
위의 모든 항목은 해당 필드의 모든 값을 의미하는 * 값을 가질 수 있습니다.
일 과 요일 필드의 경우 상관없음 을 의미하는 ? 를 지정할 수도 있습니다. 더 자세한 내용은 crontab 문서를 참조하세요.
- 분 : 0 ~ 59까지의 값
- 시 : 0 ~ 23까지의 값
- 일 : 1 ~ 31까지의 값
- 월 : 1 ~ 12까지의 값
- 요일 : 0 ~ 6까지의 값
스케줄 이력 화면
좌측 bar에 있는 시계 아이콘 을 선택하면 스케줄이 실행되었던 이력 목록을 확인할 수 있습니다.
화면 예시는 아래와 같으며 스케줄 실행과 관련된 몇 가지 속성 정보를 함께 찾아볼 수 있습니다.
특정 스케줄 정보를 알고 싶다면, 스케줄 이름과 날짜 범위를 지정해 검색할 수도 있습니다.
  • • 실행 이력 목록의 각 속성은 다음과 같은 의미가 있습니다.
  • • 이름 : 실행된 스케줄의 이름을 의미합니다. 등록 시에 사용한 스케줄 이름입니다.
  • • 실행 시작 시간 : 스케줄러가 작업을 트리거한 시간입니다.
  • • 실행 종료 시간 : 종료 상태를 고려하지 않고 해당 작업이 마무리된 시간입니다.
  • • 소요 시간 : 스케줄링을 시작해서 종료하기까지 소요된 시간입니다.
  • • 실행 상태 : 처리의 마지막 상태를 의미합니다. 이 값은 다음 중 하나에 해당합니다.
  • - FINISHED : 작업이 정상 종료됨.
  • - ERROR : 작업 수행 중 오류가 발생함.
  • - RUNNING : 작업 실행 중.

관련자료

댓글 0
등록된 댓글이 없습니다.

공지사항


뉴스광장


  • 현재 회원수 :  60,037 명
  • 현재 강좌수 :  35,807 개
  • 현재 접속자 :  133 명