DATA/BIGDATA(59)
-
회귀분석에서 가설 검정
회귀분석에서 가설 검정은 회귀모형이 적합한지, 그리고 각 회귀계수가 통계적으로 유의한지를 평가하기 위해 사용된다. 회귀모형의 유의성 검정 (F-검정) - 전체 회귀모형이 유의한지, 즉 모델이 종속변수 \(Y\)를 설명하는 데 유의한 영향을 미치는지를 평가한다. - 귀무가설 (\(H_0\)): 회귀모형이 유의하지 않다. 즉, 모든 회귀계수 \(B_1, B_2\)가 0이다. - 대립가설 (\(H_1\)): 회귀모형이 유의하다. 즉, 적어도 하나의 회귀계수는 0이 아니다. F-검정의 p-value가 0.05보다 작으면, 귀무가설을 기각하고 회귀모형이 통계적으로 유의하다고 결론 내릴 수 있다. 개별 회귀계수의 유의성 검정 (t-검정) - 각 독립변수 \(X_1\)와 \(X_2\)의 회귀계수가..
2024.09.05 -
표본상관계수
상관계수와 표본상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도이다.상관계수(ρ)와 표본상관계수(r)- 상관계수(ρ): 모집단 전체에서 두 변수 간의 상관관계를 나타내는 값을 의미하며, 이를 모집단 상관계수라고도 한다.- 표본상관계수(r): 모집단의 일부인 표본 데이터를 사용하여 두 변수 간의 상관관계를 추정한 값을 의미한다. 모집단 상관계수(ρ)의 추정치로 사용된다.표본상관계수 \( r \)는 \[r = \frac{\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \overline{X})^2} \sqrt{\sum_{i=1}^{n} (Y_i - \overline{Y})^2}}\]-..
2024.09.04 -
MNIST 를 학습하고 예측하는 코드
Tensorflow를 사용하여 Deep Neural Network(DNN)을 구성하여 MNIST 예제를 학습하고 예측하는 코드 from tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Flatten, Densefrom tensorflow.keras.optimizers import Adam# Model 생성model = Sequential()# 입력층model.add(Flatten(input_shape=(784,)))# Hidden Layer 1model.add(Dense(units=64, activation='relu'))# Hidden Layer 2model.add(Dense(units=128, activation..
2024.07.15 -
정규화(Normalization)
Training Data Set에 있는 속성의 값이 scale이 심하게 차이나는 경우, 이를 보정하여 학습을 진행하는 것을 데이터 정규화(Normalization) 혹은 데이터 스케일링(Scaling)이라고 한다. 데이터 정규화는 방법1. 표준화(Standardization): 각 속성의 값에서 평균을 빼고, 표준편차로 나누어 정규분포를 따르도록 만드는 방법이다. 이는 주로 데이터가 정규분포를 따를 때 사용된다. \[ x' = \frac{x - \mu}{\sigma} \] 여기서 \( x' \)는 표준화된 값, \( x \)는 원래 값, \( \mu \)는 평균, \( \sigma \)는 표준편차이다. 2. 정규화(Normalization): 각 속성의 값을 최소값과 최대값 사이의 범위..
2024.07.15 -
Cross Entropy (크로스 엔트로피)
Logistic Regression에서 사용하는 손실 함수는 Cross Entropy (크로스 엔트로피)이다. Logistic Regression은 주로 이진 분류 문제에서 사용되며, 출력값을 확률로 해석하기 위해 Sigmoid 함수를 사용한다. Sigmoid 함수는 입력값을 0과 1 사이의 값으로 변환시키며, 이를 통해 각 클래스에 속할 확률을 예측할 수 있다. Cross Entropy 손실 함수는 이러한 이진 분류 문제에서 예측값과 실제 레이블 사이의 차이를 측정하여 모델을 학습시키는 데 사용된다. 이 함수는 다음과 같이 정의된다: \[ \text{Cross Entropy Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_..
2024.07.15 -
로지스틱 회귀(Logistic Regression)
로지스틱 회귀(Logistic Regression)는 이진 분류 문제를 해결하기 위해 선형 회귀를 확장한 형태이다. 선형 회귀와 달리, 로지스틱 회귀는 종속 변수가 범주형(보통 0과 1)인 경우에 사용된다. 로지스틱 회귀의 결과는 확률 값(0과 1 사이)이므로, 이를 위해 시그모이드 함수(Sigmoid Function)를 사용하여 선형 회귀 결과를 확률로 변환한다. 로지스틱 회귀 모델 로지스틱 회귀 모델은 다음과 같이 표현된다: \[ P(y=1|x) = \sigma(z) = \frac{1}{1 + e^{-z}} \] 여기서: - \( P(y=1|x) \)는 주어진 \( x \)에 대해 \( y \)가 1일 확률이다. - \( \sigma(z) \)는 시그모이드 함수이다. - \( z = \beta_0 ..
2024.07.15