메뉴
검색
클라우드포털

강좌

클라우드/리눅스에 관한 강좌입니다.

자격증

NCE 자격증 이론정리 69편- Analytics 분야 -Spark Dataframe 핵심요약

관리자 작성
작성일 2023.09.13 13:56

3,837 조회
0 추천
목록

Spark Dataframe 핵심요약

-RDD의 4가지 한계를 극복하기 위해 Dataframe 탄생

첫째, RDD는 메모리나 디스크에 저장 공간이 충분치 않으면 제대로 동작하지 않음

둘째, RDD는 스키마(데이터베이스 구조) 개념이 별도로 없음

셋째, 구조화된 데이터와 비구조화 데이터를 함께 저장하여 효율성이 떨어짐

넷째, RDD는 기본적으로 직렬화(데이터를 배포하거나 디스크에 데이터를 기록할 때마다 JAVA 직렬화 사용)와 Garbage Collection(사용하지 않는 객체를 자동으로 메모리에서 해제)을 사용하는데, 이 때 메모리 오버헤드가 증가함

-변경불가능(immutable) 객체

-구조화된 (structured) 데이터 구조 : 행과 열로 구조화되어 있는 데이터로 스키마를 표현할 수 있는 RDD의 확장 구조체

-GC(Gabage Collection)오버헤드 감소 : RDD는 데이터를 메모리에 저장하지만, Dataframe은 데이터를 오프-힙(gc의 영향을 받지않는, 디스크가 아닌 RAM영역)영역에 저장함. Gabage Collection의 오버헤드를 감소

-Hive 등장하기 시작하면서 대용량데이터를 SQL로 처리가 상대적으로 쉬워짐

-RDD에서 Dataframe으로 넘어오면서 SQL로 넘어가는 추세

-andas의 dataframe보다 SQL과 유사한 Dataframe

"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."

이전

NCE 자격증 이론정리 70편- Analytics 분야 -Zookeeper 핵심요약

작성일 2023.09.13 13:57
다음

NCE 자격증 이론정리 68편- Analytics 분야 -Spark 핵심요약

작성일 2023.09.13 13:55

댓글 0

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

목록

공지사항

등록일 09.15

네이버클라우드 콘솔(console) 실무작업 강좌를 시작합니다.
등록일 09.13

네이버클라우드 자격증 NCE 요약강의를 시작하였습니다.
등록일 06.05

쉘프로그래밍(shell programming)강좌를 시작했습니다.
등록일 05.25

록키리눅스(RockyLinux) 강좌를 시작했습니다.
등록일 01.10

리눅스마스터 자격증 강좌를 업로드하고 있습니다.
등록일 01.10

클라우드와 리눅스 보안강좌 업로드 중입니다.
등록일 08.09

파이썬 강좌를 시작합니다.

뉴스광장

등록일 07.17

[현대이지웰+멀티캠퍼스] Java 풀스택 개발자 아카데미 수강생 모집 (~2025/09/07)
등록일 07.17

서버보안, 네트워크보안 엔지니어 취업 연계 국비지원 부트캠프 학원 교육
등록일 07.17

✅ 하이미디어아카데미 국비지원 지점별 안내 ✅ (7월17일변경)
등록일 07.17

[전액국비지원] 클라우드 활용 자바/스프링 개발 부트캠프 95기 (~08/25)
등록일 07.17

여자들 많은곳
등록일 07.16

[새싹_동대문 캠퍼스] AWS Korea와 함께하는 AI를 활용한 클라우드 아키텍트 과정 3기 교육생 모집(~08.08)
등록일 07.16

[전액 무료교육] IT기초~실무, 취업연계 교육 안내
등록일 07.15

[08/12개강] 현대로템, K방산 스마트AI모델 개발과정, 국비지원교육
등록일 07.15

[구디아카데미] 취업률 80%_클라우드 활용 자바/스프링 개발 부트캠프 95기 (~08/25)
등록일 07.13

남자들이 이용할 수 있는 곳

현재 회원수 : 60,391 명
현재 강좌수 : 37,073 개
현재 접속자 : 333 명