서론
저번 시간에는 머신 러닝이 어떤 것이고, . 이번에는 머신 러닝의 방법론 중 하나이며, 제일 기초가 되지만 비전공자들에게 “벽”을 선사하는 선형 회귀, Linear Regression을 공부해 보겠습니다! 지레 겁먹지 마시고, 차근차근히 설명할 것이니까 진정하시고 제 설명을 잘 따라와주시면 감사하겠습니다. 참고로, 아마 이번 챕터가 가장 긴 챕터가 될 것 같습니다 ㅠㅠ 화이팅 !
목차
선형 회귀
선형 회귀란
•
일단 ‘회귀(Regression)’란, 통계학에서 변수들간의 상관관계를 모델링 하는 기법을 뜻함.
•
선형 회귀 (Linear Regression)
◦
다들 아마 머신 러닝에 관심 있다면 다들 들어봤을 그 이름이다. 이 문단만 보면 이해가 어렵겠지만, 비용과 비용함수, Gradient Descent 까지 읽고 나면 어떤 방식으로 작동하는지 이해될 것이다.
◦
여러 차원(우리는 2차원으로 할 예정) 좌표에 분포된 데이터를 (여러 차원 - 1차원) 방정식을 통해 아직 표현되지 않은 데이터를 예측하기 위한 분석 모델.
◦
“좌표에 분포된 데이터”
▪
예를 들면, 키와 몸무게의 상관관계를 따질 때, 어떤 키일 때, 어떤 몸무게를 가지는지를 그래프에 표현했다고 생각하자.
▪
이때, 키를 독립변수, 몸무게는 종속변수라고 한다. 하지만, 그래프로 나타낼 때, 독립변수에는 키 이외에도 식습관, 수면시간 등 여러가지가 올 수 있다.
가설
•
가설이란, 어떠한 수식이다. 어떠한 수식이냐면 바로 “좌표에 분포된 데이터”들을 보고 이러한 데이터들을 나타내며 예측가능하게 하는 수식이다.
◦
예를 들면 이런 것이다. 현재 좌표에는 (1,1) (2,2) (3,3) 이 세개의 좌표가 있다. 여기서 정답인 수식은 y=x이다. 이런 식으로 좌표에 나타내져있는 데이터들을 통해 수식을 만들고, 이 수식을 통해 x=4 일 때 y=4라고 예측하게 하는 함수를 가설이라고 한다.
•
그리고 그 가설을 대부분 아래의 식으로 표현한다.
◦
H(x) = Wx + b (짱중요)
▪
여기서 W는 Weight(가중치) 이며 b는 bias(편향)이다. 우리는 이 두가지를 변화시켜서 가장 최적의 H(x)를 찾는 것이 선형 회귀의 목표이다 !
▪
만약, 위의 예시인 키와 몸무게의 관계에서, 키 이외의 변수인 식습관, 수면시간이 온다고 하면 가설은 이렇게 변한다.
•
H(x) = W1x1 + W2x2 + W3x3 + b
•
그렇다면 여러가지 변수가 추가될 수록, b의 역할은 줄어들고 W의 역할이 커지게 된다.
•
따라서 우리는 가설에서 두가지를 변화시키지만, 주로 W가 값에 큰 영향을 위와 같은 이유로 알 수 있다.
비용 함수
•
비용 (Cost)
◦
비용(Cost)이란, 우리가 찾은 결과값인 H(x)와 원래 우리가 알고 있는(지도학습 이므로 정답이 주어짐) 정답의 차이이다. 즉, 우리가 찾은 결과값과 정답의 오차로 볼 수있는 것이다.
◦
우리는 이 “비용”을 더 극적으로 만들어 더 비용이 적게 나오는 그래프를 만들려고 했다.
◦
MSE (Mean Squared Error)
▪
바로 이 기법을 통해 우리는 작은 Error
Gradient Descent
마치며
참고 사이트
제가 기본 개념을 배우고 정리하면서 참고했던 정리 사이트들입니다! 제가 사용한 사진 및 모든 내용의 출처는 아래임을 밝힙니다. 제가 많이 부족하여 설명이 이해가 안되신다면 사이트 참고해주시길 바라겠습니다 !
Table
Search