Spark의 연산

2024. 8. 10. 14:48DATA/Spark

반응형


 1. Transformations (변환 연산)
-  Transformations는 RDD(Resilient Distributed Dataset)를 변환하여 새로운 RDD를 생성하는 연산으로 데이터의 변형, 필터링, 매핑 등을 포함한다.
- 특징: 
  - 지연 실행(Lazy Evaluation): 변환 연산은 즉시 실행되지 않고, 액션 연산이 호출될 때 실행된다. 이는 최적화와 연산의 효율성을 높이는 데 도움이 된다.
  - 불변성(Immutability): 원본 RDD는 변하지 않으며, 변환 연산은 새로운 RDD를 생성한다.

  - map(): 각 요소에 대해 함수를 적용하여 새로운 RDD를 생성.
  - filter(): 주어진 조건을 만족하는 요소들만을 포함하는 새로운 RDD를 생성.

 2. Actions (액션 연산)
-  Actions는 RDD에 대해 연산을 수행하고, 결과를 반환하거나 저장하는 연산이다. 예를 들어, 데이터를 수집하거나 RDD를 외부 저장소에 저장하는 작업이다.
- 특징:
  - 즉시 실행(Eager Execution): 액션 연산은 즉시 실행되며, Transformations에 의해 정의된 연산 그래프를 실제로 수행한다.
  - 결과 반환: 액션 연산은 최종 결과를 반환하며, 이 결과는 드라이버 프로그램에서 사용할 수 있다.

  - collect(): RDD의 모든 요소를 드라이버 프로그램으로 가져온다.
  - count(): RDD의 요소 개수를 반환한다.
  - saveAsTextFile(): RDD의 내용을 텍스트 파일로 저장한다.


 
 

 

 

반응형