Data Observability (데이터 관측)

2024. 11. 27. 17:56DATA/BIGDATA

반응형

Data Observability (데이터 관측)

Data Observability란 조직 내에서 시스템에 대한 데이터를 완전히 이해하고, 데이터의 상태를 실시간으로 모니터링하고 문제를 감지할 수 있는 능력을 의미한다. 이를 통해 데이터 품질을 유지하고 문제를 미리 감지하여 빠르게 해결할 수 있다. 데이터 관측은 주로 자동화된 모니터링, 알람, 트리거 등을 활용하여 이루어진다.

Data Observability의 5 Pillars (5개의 주요 요소)

Data Observability를 구성하는 5가지 핵심 요소는 다음과 같다:

  1. Freshness (신선도):
    • 목표: 데이터가 최신 상태로 업데이트되었는지 확인하는 것.
    • 설명: 데이터가 시간에 맞게 최신으로 업데이트되고 있는지 추적한다. , 실시간 데이터 처리 시스템에서는 데이터가 얼마나 자주 업데이트되는지 확인하여 지연이 발생하는지 점검할 수 있다.
  2. Distribution (분포):
    • 목표: 데이터가 정의된 범위 내에 있는지 확인하는 것.
    • 설명: 데이터 값이 예상 범위 내에 있는지 모니터링한다. , 특정 컬럼의 값이 비정상적으로 벗어났다면, 이는 문제를 일으킬 수 있다. 분포가 올바르게 유지되도록 데이터 품질을 체크한다.
  3. Volume (데이터 양):
    • 목표: 테이블에 저장된 데이터 수가 일정하게 유지되는지 확인하는 것.
    • 설명: 데이터의 양이 급격히 변하지 않도록 모니터링한다. , 예상보다 데이터가 너무 적거나 많으면 시스템에서 문제가 발생할 수 있다. 이 때 적절한 알림을 통해 문제가 발생하기 전에 대응할 수 있다.
  4. Schema (스키마):
    • 목표: 데이터 스키마의 변경 사항을 모니터링하는 것.
    • 설명: 데이터베이스 테이블이나 필드의 구조가 변경되면 기존 시스템에서 문제가 발생할 수 있다. 따라서 스키마 변경을 추적하여 예기치 않은 오류나 변화를 사전에 파악한다.
  5. Lineage (데이터 계보):
    • 목표: 특정 데이터가 이상이 있을 경우, 데이터의 출처부터 문제를 추적할 수 있는 능력.
    • 설명: 데이터가 어떻게 흐르고, 변환되고, 저장되었는지에 대한 경로를 추적하여 오류의 근원을 파악할 수 있다. , 데이터 마트에서 문제가 발생했다면, 원본 테이블에서의 이상을 확인해야 한다. 이를 통해 데이터 품질 문제를 빠르게 해결할 수 있다.

정리

Data Observability는 데이터의 상태를 실시간으로 파악하고, 잠재적인 문제를 미리 감지하여 조직의 데이터 품질을 유지하는 중요한 과정이다. 5가지 주요 요소인 Freshness, Distribution, Volume, Schema, Lineage는 데이터의 이상을 빠르게 발견하고 해결할 수 있도록 도와주는 핵심적인 요소들이다.

 

 

 

Data Observability vs. Monitoring

Data ObservabilityData Monitoring은 데이터 품질 관리 및 문제 감지 측면에서 유사한 목적을 가지고 있지만, 그 접근 방식과 범위에서는 차이가 있다.

Data Observability (데이터 관측):

  • 목표: 모든 데이터 상태와 활동을 종합적으로 파악하고, 예상치 못한 변동이나 이상을 실시간으로 감지하는 것.
  • 방법: 기존의 메트릭과 파라미터가 예상과 다를 때, 자동으로 팀에 알림을 보낸다. 즉, 데이터 흐름과 변화를 종합적이고 동적으로 추적하면서, 문제를 사전에 발견하고 대응할 수 있게 한다.
  • 특징:
    • 데이터의 모든 상태 변화상호작용을 감지
    • 비정상적이고 예기치 않은 상황을 찾아내어 자동으로 경고
    • 데이터 흐름과 변환의 전체적 계보를 추적하여 문제를 파악

Data Monitoring (데이터 모니터링):

  • 목표: 미리 설정된 값에 대해서만 문제를 감지하고 경고하는 것.
  • 방법: 정해진 기준값이나 임계값에만 반응하여 문제가 발생했을 때 알림을 보낸다. , 특정 테이블의 행 수나 데이터 크기, 값 범위 등이 미리 설정된 기준을 벗어날 경우에만 알림을 보낸다.
  • 특징:
    • 미리 정의된 문제의 값에 대해서만 경고
    • 정적인 기준에 의존하며, 모든 변화나 예기치 않은 상황에 대응하기 어려움
    • 데이터의 변화를 전체적으로 파악하기보다는 특정한 문제에 집중

비교

  • Data Observability모든 변화동적으로 추적하며, 예상치 못한 문제나 패턴을 빠르게 감지한다. 이는 데이터의 전반적인 상태와 활동을 종합적으로 관찰하는 방식을 취한다.
  • Data Monitoring미리 설정된 값에 대해서만 감지하고 경고하기 때문에 정적인 모니터링이라고 할 수 있다. , 데이터 값이 예상된 범위를 벗어날 경우에만 알림을 보낸다.

 

  • Data Observability빙산의 전부를 볼 수 있는 시각을 제공하며, Data Monitoring빙산의 일각만을 감지하는 역할을 한다. 즉, Data Observability는 더 넓은 범위와 깊이를 가지고 데이터를 감시하고, Data Monitoring은 설정된 특정 기준에만 집중하는 방식이다.

 

  • Data Observability는 데이터를 실시간으로 종합적으로 관찰하고 문제를 동적으로 감지하는 기능을 제공하며, Data Monitoring은 사전에 정의된 범위 내에서만 경고를 발생시킨다.
  • Data Observability는 더 발전된 방식으로, 데이터의 전체적인 품질과 흐름을 파악하고 문제가 발생할 가능성을 미리 예측하는 데 유용하다.

 

 

 

 

Data Observability: 신뢰할 수 있는 데이터를 만드는 방법

장점 (Pros)

  1. 데이터 중단 시간 감소:
    • Data Observability는 데이터 흐름과 시스템의 상태를 실시간으로 감시하고 이상 징후를 빠르게 발견할 수 있기 때문에, 데이터 중단 시간을 줄이는 데 도움을 준다. 문제가 발생하기 전에 이를 사전에 감지하고 해결할 수 있어 데이터가 다운되는 시간을 최소화할 수 있다.
  2. 데이터 관찰 가능성의 중요성:
    • 데이터 중단심각한 결과를 초래할 수 있다. 특히, 비즈니스 운영에 필수적인 데이터를 사용하는 시스템에서 데이터 중단은 의사결정에 지장을 줄 수 있다. Data Observability를 통해 이러한 중단이나 오류를 빠르게 발견하고 대응함으로써 데이터의 신뢰성을 유지할 수 있다.

단점 (Cons)

  1. 데이터 엔지니어와 개발자에게 부담:
    • Data Observability를 실현하려면 많은 시간과 리소스가 필요한다. 데이터 엔지니어나 개발자는 시스템을 모니터링하고 데이터를 추적하는 데 많은 노력을 기울여야 하기 때문에, 이 과정에서 리소스 낭비가 발생할 수 있다. 특히, 문제가 발생하지 않는 경우에도 지속적인 감시와 모니터링은 부담이 될 수 있다.
  2. 데이터 소비자의 신뢰 감소:
    • 데이터의 불확실성이나 오류가 지속적으로 감지되면 데이터 소비자(분석가, 의사결정자 등)는 데이터에 대한 신뢰감을 잃을 수 있다. 데이터가 신뢰할 수 없다는 인식이 커지면, 의사결정에 대한 자신감이 약해지고, 이는 비즈니스 성과에 부정적인 영향을 미칠 수 있다.

결론

  • Data Observability는 데이터 중단 시간을 줄이고, 데이터 시스템에서 발생할 수 있는 문제를 빠르게 감지하여 대응하는 중요한 역할을 한다. 하지만 이를 구현하려면 추가적인 리소스와 관리가 필요하며, 데이터 소비자에게 데이터의 신뢰성 문제가 발생할 수 있다는 단점도 존재한다. 따라서 데이터의 신뢰성시스템의 안정성을 동시에 보장하는 균형 잡힌 접근이 필요하다.
반응형

'DATA > BIGDATA' 카테고리의 다른 글

ETL과 ELT  (0) 2024.11.27
UTC와 KST  (1) 2024.11.27
Mongodb 설치  (3) 2024.11.14
카이제곱 검정  (0) 2024.09.06
결정계수 (R²)  (0) 2024.09.05