DATA/BIGDATA(59)
-
Data Observability (데이터 관측)
Data Observability (데이터 관측)Data Observability란 조직 내에서 시스템에 대한 데이터를 완전히 이해하고, 데이터의 상태를 실시간으로 모니터링하고 문제를 감지할 수 있는 능력을 의미한다. 이를 통해 데이터 품질을 유지하고 문제를 미리 감지하여 빠르게 해결할 수 있다. 데이터 관측은 주로 자동화된 모니터링, 알람, 트리거 등을 활용하여 이루어진다.Data Observability의 5 Pillars (5개의 주요 요소)Data Observability를 구성하는 5가지 핵심 요소는 다음과 같다:Freshness (신선도):목표: 데이터가 최신 상태로 업데이트되었는지 확인하는 것.설명: 데이터가 시간에 맞게 최신으로 업데이트되고 있는지 추적한다. , 실시간 데이터 처리 시스템에..
2024.11.27 -
ETL과 ELT
ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)의 차이와 활용 사례1. ETL과 ELT의 차이ETL: 데이터를 추출(Extract)한 후 변환(Transform) 작업을 수행하고, 변환된 데이터를 대상 데이터 저장소로 적재(Load)한다.주로 데이터가 구조화된 상태에서 사용되며, 데이터 웨어하우스가 이미 준비된 환경에서 효율적이다.장점: 데이터를 미리 변환하기 때문에 적재 후 빠르고 안정적으로 분석할 수 있다.ELT: 데이터를 추출(Extract)하여 먼저 대상 데이터 저장소로 적재(Load)한 뒤, 저장소 내부에서 변환(Transform) 작업을 수행한다.현대적인 분산 처리 및 클라우드 기반 데이터 플랫폼에서 활용되며, 대규모 비구조화 데이터..
2024.11.27 -
UTC와 KST
UTC와 KST는 시간대(Time Zone)와 관련된 용어로, 데이터 분석에서 타임스탬프나 시간 처리에 자주 사용된다.1. UTC (Coordinated Universal Time)뜻: 협정 세계시(Universal Time Coordinated)로, 전 세계적으로 동일하게 사용하는 표준 시간대이다.특징:시간대 차이가 없는 기준 시간.영국 그리니치 천문대를 기준으로 한 GMT(Greenwich Mean Time)와 거의 동일하지만, UTC는 더 정밀한 기준이다.2. KST (Korea Standard Time)뜻: 한국 표준시(Korea Standard Time)로, 한국의 시간대이다.UTC와의 차이:KST는 UTC+9 시간대를 사용한다. 즉, UTC 시간에 9시간을 더하면 KST가 된다.예: UTC가 ..
2024.11.27 -
Mongodb 설치
■ 설치파일 다운Download MongoDB Community Server | MongoDB Try MongoDB Community EditionTry MongoDB Community Edition on premise non-relational database including the Community Server and Community Kubernetes Operator for your next big project!www.mongodb.com MongoDB Shell Download | MongoDB
2024.11.14 -
카이제곱 검정
카이제곱(χ²) 검정은 범주형 데이터를 분석하는 데 사용되며, 주로 관찰된 빈도와 기대되는 빈도 사이의 차이가 통계적으로 유의한지 평가하는 데 사용된다. 카이제곱 검정의 두 가지 주요 유형 : 1. 적합도 검정(Goodness-of-Fit Test): 한 범주형 변수의 관찰 빈도 분포가 기대되는 이론적 분포와 일치하는지 확인. 2. 독립성 검정(Test of Independence): 두 범주형 변수 간의 독립성을 평가. 1. 카이제곱 검정 통계량 식 카이제곱 검정 통계량(χ²)은 \[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \] - Oᵢ: 관찰된 빈도(Observed Frequency) - Eᵢ: 기대되는 빈도(Expected Frequency) - i: 각 범주..
2024.09.06 -
결정계수 (R²)
1. 결정계수 (R²) 결정계수 \( R^2 \)는 회귀 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표이다. 즉, 전체 변동성 중에서 회귀식이 설명하는 변동성의 비율을 나타낸다. \[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \] - SSR (Sum of Squares for Regression): 회귀식에 의해 설명되는 변동 \[ SSR = \sum (\hat{y}_i - \bar{y})^2 \] \(\hat{y}_i\)는 예측값, \(\bar{y}\)는 종속 변수의 평균값이다. - SSE (Sum of Squares for Error): 회귀식으로 설명할 수 없는 변동 \[ SSE = \sum (y_i - \hat{y}_i)^2 ..
2024.09.05