본문 바로가기
Machine Learning

선형 회귀모형

by Nowkeeh Ahc

[1] 정의

 선형 회귀모형 (Linear Regression Model)은 개별 독립변수의 변화가 종속변수의 변화에 어떻게 영향을 미치는지 판단함으로써 독립변수들의 값이 주어졌을 때 종속변수의 값을 예측하는 모형이다. 선형 회귀모형은 선형 예측 함수를 사용해 회귀식을 모델링하며, 이렇게 만들어진 회귀식을 선형 모형이라고 한다. 선형 회귀모형은 원칙적으로 독립변수와 종속변수가 수치형 변수일 경우 사용하고, 종속변수가 독립변수에 대해 선형 관계에 있을 것이라 가정하게 된다. 만약 독립변수가 명목형일 경우에는 이를 더미변수화 하여 수치형 독립변수와 함께 추가하여 선형 회귀모형을 수행할 수 있고, 만약 종속변수가 명목형일 경우에는 로지스틱 회귀모형과 같은 비선형적 회귀모형으로 사용하기도 한다. 로지스틱 회귀모형에 대해서는 5장에서 별도로 다룬다.

 독립변수의 개수에 따라 단순 선형 회귀 모형(한 개의 독립변수)과 다중 선형 회귀 모형(두 개 이상의 독립변수)으로 구분하기도 한다.

 

[2] 모형

 선형 회귀모형은 주어진 데이터 세트에 대해 종속 변수와 p개의 독립변수 사이의 선형 관계를 추정하는 회귀식을 구하여 예측을 수행한다. 독립변수 X1,,Xp와 종속변수 Y를 갖는 선형 회귀모형은 다음과 같다.

 여기서 0는 y축과 만나는 절편 (Intercept)으로서 편향 (Bias)이라고도 불리며, i는 기울기로서 종속변수에 대한 각 독립변수의 가중치 (Weight, 또는 계수 (Coefficient))를 나타내는 것으로, Xi가 한 단위 변했을 때 Y의 기대 변화량을 의미한다. i들은 오차 (Error)로서 서로 독립이고, 평균은 0, 분산은 2인 정규분포를 따르는 확률변수이다. 

 가장 기본적인 선형 회귀모형 추정방식인 최소제곱법 (Least Square Method)에 의한 회귀모형의 개념은 주어진 데이터 세트로부터 0i의 추정치 b0bi를 추정함으로써 다음과 같이 추정된 회귀식을 구하는 것이다.

[그래프 1] 추정된 회귀식의 예

 최소제곱법의 원리는 독립변수와 종속변수 사이의 선형관계를 추정하는 회귀식을 구하기 위해 X, Y의 좌표로 나타낸 점들에 가장 가까이 있는 직선을 찾는 것으로서 모든 점과의 거리의 합이 최소가 되는 직선을 찾는다는 의미이다. 이를 위해 모형은 학습을 통해 실제값과 예측값 사이의 잔차제곱합 (Residual Sum of Squares, RSS) 또는 오차제곱합 (Sum of Squared Error, SSE)을 최소화하는 절편과 기울기를 찾게 된다.

 

[3] 특징

선형 회귀모형은 다른 머신러닝 모형에 비해 구현이 간단하고, 독립변수와 종속변수 간의 관계를 직관적으로 이해할 수 있다. 또한, 빅 데이터나 기업의 스몰 데이터 그리고, 서베이를 통해 수집한 희소 데이터 등에 대해서도 잘 적용된다. 

그러나, 선형 회귀모형은 독립변수가 많은 고차원의 데이터에서 다중공선성 (Multicollinearity)의 문제로 인해 과잉적합 될 가능성이 있고, 각 독립변수들이 갖는 계수들에 대한 이해가 어려운 경우도 생긴다. 

 [표 ] 모형의 장단점

장점 구현하기 쉽고, 모형의 결과를 쉽게 이해할 수 있다.
독립변수와 종속변수 간의 관계를 쉽게 파악할 수 있다.
매우 큰 데이터 세트와 희소한 데이터 세트에도 잘 동작한다.
단점 종종 계수의 값들이 왜 그러한 결과가 나왔는지 원인을 명확히 해석하기 어려울 때가 있다.
다중공선성 문제를 유의해야 한다.

 선형 회귀모형의 가장 큰 문제점인 다중공선성 문제를 해결하기 위해 3장에서 다루었던 변수 선택법으로 상호 의존적인 독립변수를 삭제하거나, 정규화를 통해 데이터를 변환한 후 모델링을 수행할 수 있다. 또한, 이후에 설명할 릿지 (Ridge) 또는 라쏘 (LASSO) 회귀모형과 같이 특정 규제를 가하여 모형의 복잡도를 제어하는 방법을 사용하기도 한다.


This post was written based on what I read and studied the book below.

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791195511747

댓글