Spark의 연산

Spark의 연산

2024. 8. 10. 14:48ㆍDATA/Spark

1. Transformations (변환 연산)
-  Transformations는 RDD(Resilient Distributed Dataset)를 변환하여 새로운 RDD를 생성하는 연산으로 데이터의 변형, 필터링, 매핑 등을 포함한다.
- 특징:
  - 지연 실행(Lazy Evaluation): 변환 연산은 즉시 실행되지 않고, 액션 연산이 호출될 때 실행된다. 이는 최적화와 연산의 효율성을 높이는 데 도움이 된다.
  - 불변성(Immutability): 원본 RDD는 변하지 않으며, 변환 연산은 새로운 RDD를 생성한다.
-
  - map(): 각 요소에 대해 함수를 적용하여 새로운 RDD를 생성.
  - filter(): 주어진 조건을 만족하는 요소들만을 포함하는 새로운 RDD를 생성.

2. Actions (액션 연산)
-  Actions는 RDD에 대해 연산을 수행하고, 결과를 반환하거나 저장하는 연산이다. 예를 들어, 데이터를 수집하거나 RDD를 외부 저장소에 저장하는 작업이다.
- 특징:
  - 즉시 실행(Eager Execution): 액션 연산은 즉시 실행되며, Transformations에 의해 정의된 연산 그래프를 실제로 수행한다.
  - 결과 반환: 액션 연산은 최종 결과를 반환하며, 이 결과는 드라이버 프로그램에서 사용할 수 있다.
-
  - collect(): RDD의 모든 요소를 드라이버 프로그램으로 가져온다.
  - count(): RDD의 요소 개수를 반환한다.
  - saveAsTextFile(): RDD의 내용을 텍스트 파일로 저장한다.

'DATA > Spark' 카테고리의 다른 글

RDD를 사용하여 단어 빈도수를 계산 (0)	2025.01.19
Incremental(증분) 방식과 문제점 \| Lambda \| Kappa Architecture (0)	2025.01.18
PySpark를 사용하여 특정 설정으로 Spark 세션을 초기화 (0)	2024.08.10
RDD(Resilient Distributed Dataset)의 장애 복원 절차 (0)	2024.08.10

JJ의메모장

JJ의메모장

태그

최근글

댓글

공지사항

아카이브

'DATA > Spark' 카테고리의 다른 글

관련글

티스토리툴바