회귀분석모델과 결정계수

2024. 3. 21. 19:34DATA/BIGDATA

반응형

회귀분석은 주택가격, 소비 패턴, 실업률 등과 같은 경제 지표를 예측하여 주택의 크기, 위치, 시장 조건 등이 주택가격에 미치는 영향을 파악할 수 있다. 또, 주식 가격이나 자산 가치를 예측하거나 금융 자산 간의 상관 관계를 분석하여 위험 관리를 위해 다양한 금융 변수 간의 관계를 이해하는 데 활용된다.
 
 회귀분석 모델은 종속 변수와 하나 이상의 독립 변수 간의 관계를 설명하는 함수를 통해 데이터의 패턴을 설명하고 예측할 수 있다. 
\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon \]

 

- \( y \)는 종속 변수 
- \( x_1, x_2, \ldots, x_n \)는 독립 변수들 
- \( \beta_0, \beta_1, \ldots, \beta_n \)은 회귀계수로, 각 독립 변수가 종속 변수에 미치는 영향을 나타낸다.
- \( \epsilon \)은 오차 항으로, 모델로 설명되지 않는 무작위한 변동을 나타낸다.

회귀분석 모델에서 선형 회귀분석은 독립 변수와 종속 변수 간의 선형 관계를 모델링하며, 비선형 회귀분석은 선형이 아닌 관계를 모델링한다. 

 

 

 

 


회귀분석에서 회귀계수는 β (베타)로 표기된다.

 


y = β0 + β1x

단순 선형 회귀식에서 β0는 절편(intercept)을 나타내며, β1은 기울기(slope)를 나타낸다. 만약 다중 선형 회귀분석을 수행한다면, 각 독립 변수에 대한 회귀계수가 추가된다.



Intercept 는 절편은 모든 독립 변수가 0일 때의 종속 변수의 예측값으로 모델의 기본적인 수준을 나타낸다. 따라서 회귀모델의 절편은 모든 독립 변수의 값이 0일 때의 종속 변수의 예측값을 의미한다.

R-squared (결정계수): 결정계수는 회귀분석 모델이 종속 변수의 변동성을 설명하는 정도를 나타내고 1에 가까울수록 모델이 데이터를 잘 설명한다는 것을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 의미한다.

 intercept는 모델의 기본적인 예측값을 나타내는 반면, R-squared는 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타낸다.





반응형

'DATA > BIGDATA' 카테고리의 다른 글

ROC(Receiver Operating Characteristic)  (0) 2024.03.27
MSE, RMSE  (0) 2024.03.26
t-statistic , p-value  (0) 2024.03.20
지도학습과 비지도학습  (0) 2024.03.19
유클리드 거리(Euclidean distance)  (0) 2024.03.19