메뉴
검색
클라우드포털

강좌

클라우드/리눅스에 관한 강좌입니다.

자격증

NCE 자격증 이론정리 69편- Analytics 분야 -Spark Dataframe 핵심요약

관리자 작성
작성일 2023.09.13 13:56

403 조회
0 추천
목록

최저가 서버호스팅 제공 : 85,000원/월

Spark Dataframe 핵심요약

-RDD의 4가지 한계를 극복하기 위해 Dataframe 탄생

첫째, RDD는 메모리나 디스크에 저장 공간이 충분치 않으면 제대로 동작하지 않음

둘째, RDD는 스키마(데이터베이스 구조) 개념이 별도로 없음

셋째, 구조화된 데이터와 비구조화 데이터를 함께 저장하여 효율성이 떨어짐

넷째, RDD는 기본적으로 직렬화(데이터를 배포하거나 디스크에 데이터를 기록할 때마다 JAVA 직렬화 사용)와 Garbage Collection(사용하지 않는 객체를 자동으로 메모리에서 해제)을 사용하는데, 이 때 메모리 오버헤드가 증가함

-변경불가능(immutable) 객체

-구조화된 (structured) 데이터 구조 : 행과 열로 구조화되어 있는 데이터로 스키마를 표현할 수 있는 RDD의 확장 구조체

-GC(Gabage Collection)오버헤드 감소 : RDD는 데이터를 메모리에 저장하지만, Dataframe은 데이터를 오프-힙(gc의 영향을 받지않는, 디스크가 아닌 RAM영역)영역에 저장함. Gabage Collection의 오버헤드를 감소

-Hive 등장하기 시작하면서 대용량데이터를 SQL로 처리가 상대적으로 쉬워짐

-RDD에서 Dataframe으로 넘어오면서 SQL로 넘어가는 추세

-andas의 dataframe보다 SQL과 유사한 Dataframe

"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."

이전

NCE 자격증 이론정리 70편- Analytics 분야 -Zookeeper 핵심요약

작성일 2023.09.13 13:57
다음

NCE 자격증 이론정리 68편- Analytics 분야 -Spark 핵심요약

작성일 2023.09.13 13:55

댓글 0

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

목록

공지사항

등록일 09.15

네이버클라우드 콘솔(console) 실무작업 강좌를 시작합니다.
등록일 09.13

네이버클라우드 자격증 NCE 요약강의를 시작하였습니다.
등록일 06.05

쉘프로그래밍(shell programming)강좌를 시작했습니다.
등록일 05.25

록키리눅스(RockyLinux) 강좌를 시작했습니다.
등록일 01.10

리눅스마스터 자격증 강좌를 업로드하고 있습니다.
등록일 01.10

클라우드와 리눅스 보안강좌 업로드 중입니다.
등록일 08.09

파이썬 강좌를 시작합니다.

뉴스광장

등록일 10:48

(6/17개강) 강사만족도 4.9 백엔드 부트캠프 84기 모집
등록일 09:49

에이콘아카데미 강남, 자바(JAVA)중심 풀스택 캠프
등록일 09:48

더조은아카데미 종로, 빅데이터분석(with 파이썬)과 엘라스틱서치를 활용한 자바(Java)웹개발자양성
등록일 04.26

[HIWARE 보안솔루션] 클라우드 보안엔지니어 양성과정
등록일 04.26

[KT클라우드 NHN클라우드] 클라우드 엔지니어 취업과정
등록일 04.26

[취업과정8기] 5월 국비 웹 개발자 양성 무료교육 과정
등록일 04.26

(5/16 개강) 구디아카데미 83기 백엔드 개발자 부트캠프
등록일 04.26

[★고용노동부 5년인증 우수훈련기관] 전액국비지원 기업형 실무 인재 양성 자바웹개발자 과정!
등록일 04.25

에이콘아카데미 강남, 자바(JAVA)중심 풀스택 캠프
등록일 04.25

더조은아카데미 종로, 빅데이터분석(with 파이썬)과 엘라스틱서치를 활용한 자바(Java)웹개발자양성

현재 회원수 : 60,035 명
현재 강좌수 : 35,794 개
현재 접속자 : 163 명