RDD(Resilient Distributed Dataset)의 장애 복원 절차

2024. 8. 10. 13:45DATA/Spark

반응형

1. 장애 감지 (Failure Detection):
   - 스파크의 실행 엔진은 작업을 수행하는 동안 작업의 실패 여부를 지속적으로 모니터링한다.
   - 실패가 감지되면 해당 작업을 로깅하고, 실패 원인을 분석한다.

2. 계보 추적 (Lineage Tracking):
   - RDD의 계보 정보를 이용하여 실패한 작업에 필요한 데이터의 출처와 변환 과정을 추적한다.
   - 계보 정보는 비순환 그래프 형태로 저장되며, 각 RDD의 생성과정을 순서대로 기록한다.

3. 손상된 파티션 식별 (Identification of Corrupted Partitions):
   - 장애로 인해 손상된 파티션을 식별한다.

4. 손상된 파티션 재생성 (Recreation of Corrupted Partitions):
   - 계보 정보를 활용하여 손상된 파티션을 재생성한다.
   - 이 과정에서 필요한 부모 RDD의 데이터와 변환 과정을 따라가며 손상된 데이터를 복구한다.

5. 작업 재실행 (Re-execution of Tasks):
   - 복구된 파티션을 이용해 실패한 작업을 다시 실행한다.

 
 

 

 

반응형