본문 바로가기
선형 회귀모형 (라쏘) 라쏘 (Least Absolute Shrinkage and Selection Operator, LASSO) 회귀모형 역시 릿지 회귀모형과 마찬가지로 비용함수에 규제항을 추가하여 모형의 과잉적합을 방지할 수 있는 선형 회귀모형 중 하나이다. 다만 릿지와는 달리 가중치 절댓값의 합을 최소화하는 제약 조건을 사용하며, 이를 L1 규제라고 한다. 계수의 제곱을 사용하느냐 절대값을 사용하느냐의 차이만 있으므로 릿지 회귀모형과 마찬가지로 가 높아질수록 계수는 0에 가까워져 모형은 단순화되고, 가 작아질수록 반대로 계수의 영향력이 커져 표준 선형 회귀 모형과 같아진다. [그래프 1] 에 따른 라쏘 모형의 학습 결과 라쏘 회귀모형의 중요한 특징은 가중치를 0까지 축소시킬 수 있다는 점인데, 이는 결국 가중치가 0인 독..
선형 회귀모형 (릿지) 저차원 데이터 세트에서는 모형이 매우 단순하므로 과잉적합을 걱정할 필요가 없지만, 독립변수가 많은 고차원 데이터 세트에서는 모형이 점점 복잡해져 과잉적합 될 가능성이 높다. 이러한 경우, 모형의 복잡도는 가중치(계수)의 크기를 제한함으로써 제어할 수 있는데, 이러한 제약을 규제 (Regularization)라고 한다. 릿지 (Ridge) 회귀모형은 규제항을 사용함으로써 표준 회귀모형이 잠재적으로 가질 수 있는 모형의 복잡도나 과잉적합을 줄여준다. 릿지 회귀모형에서 사용하는 규제 방식을 L2 규제라고 하며, 다음과 같은 규제항이 비용함수에 추가된다. 릿지 회귀 모형의 규제항은 계수들의 제곱합의 영향을 통제하기 위한 값을 결정하는데, 이러한 제약 조건은 기울기의 절댓값(즉, 독립변수의 영향력)을 작게 만들어..
선형 회귀모형 (표준 선형 회귀) 표준 선형 회귀모형은 가장 간단하고 오래된 선형 회귀모형으로 절편과 기울기를 추정하기 위해 실제값과 예측값 사이의 평균제곱오차 (MSE)를 최소화하는 절편과 기울기를 찾는다. 여기서 MSE는 비용함수 (Cost Function)라고 하며, 이는 학습된 결과가 실제 데이터와 얼마나 떨어졌는지를 나타낸다. 표준 선형회귀 모형의 MSE 비용함수는 각 독립변수의 계수()에 대해 다음과 같이 계산한다. 일반적으로 선형 회귀모형이라고 하면 표준 선형 회귀모형을 일컫는다. 선형 회귀모형을 모델링할 때는 특별히 조절할 인자가 없는 것이 장점이지만, 모형의 복잡도를 제어할 방법도 없다는 한계가 있다. 실습 1) 종속변수 분포 확인 및 로그 변환 모형 생성에 앞서 종속변수인 'A' 의 분포를 살펴보자. 정규분포가 아닌 경..
선형 회귀모형 [1] 정의 선형 회귀모형 (Linear Regression Model)은 개별 독립변수의 변화가 종속변수의 변화에 어떻게 영향을 미치는지 판단함으로써 독립변수들의 값이 주어졌을 때 종속변수의 값을 예측하는 모형이다. 선형 회귀모형은 선형 예측 함수를 사용해 회귀식을 모델링하며, 이렇게 만들어진 회귀식을 선형 모형이라고 한다. 선형 회귀모형은 원칙적으로 독립변수와 종속변수가 수치형 변수일 경우 사용하고, 종속변수가 독립변수에 대해 선형 관계에 있을 것이라 가정하게 된다. 만약 독립변수가 명목형일 경우에는 이를 더미변수화 하여 수치형 독립변수와 함께 추가하여 선형 회귀모형을 수행할 수 있고, 만약 종속변수가 명목형일 경우에는 로지스틱 회귀모형과 같은 비선형적 회귀모형으로 사용하기도 한다. 로지스틱 회귀모형..
성능 향상 (그리드 서치) 대부분의 머신러닝 모형은 고유한 인자가 존재하는데 이 인자의 값을 어떻게 설정하느냐에 따라 모형의 성능이 달라진다. 따라서, 최적의 인자값을 결정하는 일이 모형의 성능을 향상시킬 수 있는 또 하나의 방법이 된다. 그리드 서치 (Gird Search)는 최적의 인자값을 결정하기 위한 편리한 방법 중 하나로서, 가능한 모든 인자값의 조합을 시도하여 가장 우수한 성능을 보이는 인자값을 찾아준다. 그리드 서치는 sklearn.model_selection 모듈의 GridSearchCV( ) 함수에 구현되어 있다. GridSearchCV( ) 함수는 딕셔너리 형태의 객체를 반환하는데, 이 딕셔너리 객체의 키는 인자의 이름이고, 값은 탐색할 인자의 설정값이 된다. 이진변수 'D' 를 종속값으로하는 K-NN 분류 모형..
성능 향상 (데이터 밸런싱) 지도학습 모형에서 데이터 클래스 비율의 차이가 많이 나면 모형이 단순히 다수의 클래스를 택하는 것만으로도 정확도가 높아지므로 예측 모형으로서의 의미가 떨어진다. 실제로 고객의 이탈이나 클레임 제기 여부 등 같이 발생 비율이 적은 범주가 존재하는 데이터를 그대로 학습할 경우 한쪽에 치우친 예측을 남발하는 비정상적인 모형이 생성될 수 있다. 이렇게 각 클래스에 속한 데이터의 비율 차이에 의해 발생하는 문제들을 데이터 불균형 문제 (Imbalanced Data Problem)라고 하고, 이러한 데이터 불균형성을 해결하기 위해 데이터 처리 단계에서 수행하는 방법론을 데이터 밸런싱 (Data Balancing)이라고 한다. 데이터 밸런싱에는 언더 샘플링 (Under Sampling) 방식과 오버 샘플링 (Over..