강좌
클라우드/리눅스에 관한 강좌입니다.
자격증 분류

NCE 자격증 이론정리 69편- Analytics 분야 -Spark Dataframe 핵심요약

작성자 정보

  • 관리자 작성
  • 작성일

컨텐츠 정보

본문

Spark Dataframe 핵심요약

 

 

-RDD4가지 한계를 극복하기 위해 Dataframe 탄생

 

첫째, RDD는 메모리나 디스크에 저장 공간이 충분치 않으면 제대로 동작하지 않음

 

둘째, RDD는 스키마(데이터베이스 구조) 개념이 별도로 없음

 

셋째, 구조화된 데이터와 비구조화 데이터를 함께 저장하여 효율성이 떨어짐

 

넷째, RDD는 기본적으로 직렬화(데이터를 배포하거나 디스크에 데이터를 기록할 때마다 JAVA 직렬화 사용) Garbage Collection(사용하지 않는 객체를 자동으로 메모리에서 해제)을 사용하는데, 이 때 메모리 오버헤드가 증가함

 

-변경불가능(immutable) 객체

 

-구조화된 (structured) 데이터 구조 : 행과 열로 구조화되어 있는 데이터로 스키마를 표현할 수 있는 RDD의 확장 구조체

 

-GC(Gabage Collection)오버헤드 감소 : RDD는 데이터를 메모리에 저장하지만, Dataframe은 데이터를 오프-(gc의 영향을 받지않는, 디스크가 아닌 RAM영역)영역에 저장함. Gabage Collection의 오버헤드를 감소

 

-Hive 등장하기 시작하면서 대용량데이터를 SQL로 처리가 상대적으로 쉬워짐

 

-RDD에서 Dataframe으로 넘어오면서 SQL로 넘어가는 추세

 

-andasdataframe보다 SQL과 유사한 Dataframe

 

 

 

 

관련자료

댓글 0
등록된 댓글이 없습니다.

공지사항


뉴스광장


  • 현재 회원수 :  59,982 명
  • 현재 강좌수 :  35,541 개
  • 현재 접속자 :  84 명