2024. 8. 10. 14:48ㆍDATA/Spark
1. Transformations (변환 연산)
- Transformations는 RDD(Resilient Distributed Dataset)를 변환하여 새로운 RDD를 생성하는 연산으로 데이터의 변형, 필터링, 매핑 등을 포함한다.
- 특징:
- 지연 실행(Lazy Evaluation): 변환 연산은 즉시 실행되지 않고, 액션 연산이 호출될 때 실행된다. 이는 최적화와 연산의 효율성을 높이는 데 도움이 된다.
- 불변성(Immutability): 원본 RDD는 변하지 않으며, 변환 연산은 새로운 RDD를 생성한다.
-
- map(): 각 요소에 대해 함수를 적용하여 새로운 RDD를 생성.
- filter(): 주어진 조건을 만족하는 요소들만을 포함하는 새로운 RDD를 생성.
2. Actions (액션 연산)
- Actions는 RDD에 대해 연산을 수행하고, 결과를 반환하거나 저장하는 연산이다. 예를 들어, 데이터를 수집하거나 RDD를 외부 저장소에 저장하는 작업이다.
- 특징:
- 즉시 실행(Eager Execution): 액션 연산은 즉시 실행되며, Transformations에 의해 정의된 연산 그래프를 실제로 수행한다.
- 결과 반환: 액션 연산은 최종 결과를 반환하며, 이 결과는 드라이버 프로그램에서 사용할 수 있다.
-
- collect(): RDD의 모든 요소를 드라이버 프로그램으로 가져온다.
- count(): RDD의 요소 개수를 반환한다.
- saveAsTextFile(): RDD의 내용을 텍스트 파일로 저장한다.
'DATA > Spark' 카테고리의 다른 글
RDD를 사용하여 단어 빈도수를 계산 (0) | 2025.01.19 |
---|---|
Incremental(증분) 방식과 문제점 | Lambda | Kappa Architecture (0) | 2025.01.18 |
PySpark를 사용하여 특정 설정으로 Spark 세션을 초기화 (0) | 2024.08.10 |
RDD(Resilient Distributed Dataset)의 장애 복원 절차 (0) | 2024.08.10 |