회귀는 연속적인 숫자(Continuous Number) 변수들 강의 상관관계를 파악하는 것으로, 특히 종속변수와 독립변수(Independent Variable) 사이의 연관성을 분석하는 것을 주된 목적으로 합니다. 회귀에 대한 이해를 돕기 위해 주택가격에 대한 한 가지 예를 들어 보겠습니다.

살고 있는 집을 팔고 싶은데 도대체 얼마를 받아야 하는지를 알고 싶다고 가정합니다. 그런데 팔려는 집과 동일한 크기의 주택은 사례가 없어서 주택가격을 얼마로 결정해야 하는지 애매하다면 다른 크기의 주택가격 데이터와 회귀 분석을 통해 합리적인 주택가격을 산정할 수 있습니다.

회귀분석을 시작할 때 가장 먼저 해야 할 일은 데이터의 상관정도를 직관적으로 파악하게 종속변수와 독립변수의 산점도(Scatter Plot)를 그리는 것입니다.

 


 

 

주택 크기와 가격 산점도

 

위의 그림에서도 알 수 있듯이 주택가격과 크기는 일정한 관계, 즉 선형적인 관계가 있음을 쉽게 파악할 수 있습니다. 해결하고 싶은 문제는 크기에 따른 주택가격인데, 산점도를 보면 크기가 클수록 가격이 높아지는 선형적인 관계가 있으므로 다음과 같은 모델(수식)을 떠올릴 수 있습니다.

 

 

Y = aX  + b

 

 

Y는 주택가격으로 '종속변수'라 하고, X는 크기로 '독립변수'라고 합니다. 가정한 모델이 1차 함수이므로 'a'는 기울기, 'b'는 절편을 의미하고 있습니다. 주어진 데이터를 이용해 a 값과 b값을 찾게 된다면 주택 가격 결정을 위한 모델을 완성할 수 있고, 완성된 모델의 X에 팔려는 집의 크기를 입력하면 주택가격을 알 수 있습니다. 프로그램을 이용해 a의 값이 0.65, b의 값이 0.89일 때 앞서 보았던 산점도를 가장 잘 표현할 수 있다면 '주택가격 = 0.65 X 크기 + 0.89라는 관계가 성립한다고 할 수 있습니다.

이제 주택가격과 크기의 관계를 알았으니 크기만 알면 앞의 식에 넣어 적절한 주택가격이 얼마인지를 산정할 수 있게 됩니다.

 

 

 

회귀 분석

 


 

이처럼 주어진 변수 간의 상관관계를 파악하는 것이 회귀입니다. 회귀의 문제의 예는 다음과 같습니다.

1. 과거의 온도 데이터를 이용해 내일 온도를 예측합니다.

2. 주식시세 정보를 이용해 미래의 주식가격을 예측합니다.

3. 유동인구, 날씨, 가격정보 등을 이용해 음식점의 매출을 예측합니다.

4. 구매자의 나이와 연 소득을 이용하여 특정 제품의 판매량을 예측합니다.

 


 

※ 오늘은 '회귀(Regression)'에 대하여 알아보았습니다.

이 포스트는 학부에서 제공하는 기본적인 강의와 책들을 토대로 알기 쉽게 내용을 작성하였습니다. 하지만 계속 더 유익하고 논문 및 전문 서적을 읽어가며 더 추가돼야 할 내용이 있으면 인공지능, 머신러닝 포스트와 콘텐츠들을 계속 고도화하는 방식으로 진행하려고 합니다.

 

#인공지능 #컴퓨터공학 #AI #머신러닝 #Machinelearning #데이터사이언스 #Datascience #회귀 #Regression

+ Recent posts