Supervised learning : 설명변수 x에 대한 반응변수 y가 있는 것
특징공간=설명변수 x의 개수에 따라 증가한다
다차원 공간의 예시
=Mnist 필기 데이터
=사람들이 입력한 필기 정보를 8*8 영역에 나타낸다 , 64개의 변수가 있는 상황
=칸 1개당 순번을 지정, 필기시 변수영역에 지나가면 해당 영역 x를 1로 표기한다, 개별적 화소를 특징벡터로 사용시 64차원이 된다
X0 |
X1 |
.. |
.. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X63 |
d차원데이터
=특징 벡터 표기= x=(x1,x2,..)^T – 열벡터를 Transpose 한 의미
d차원 데이터를 위한 학습 모델
=직선모델을 사용하는 경우 매개변수 수 =d+1
=2차원 곡선 모델을 사용시 매게변수 수가 급격히 증가 = d^2 + d+ 1
Ex) d가 변수가 4개인 d=4 일때 4^2 + 4 + 1 =21개의 변수
Ex) mnist 경우 784개 (28*28 = 615441 개의 변수)
선형 분리 불가능한 원래 특징공간 ( Non-linearly Separable)공간 = xor문제
=좌-분리가 어려운 특징
=우-위치를 이동시켜 구분을 쉽게한다, 특정 벡터를 변경하기 위한 수식이 존재한다
표현학습(Representation learning)
=좋은 특징공간을 자동으로 찾는 작업, 좌측에는 개선전, 우측은 개선후의 상황을 배치한다
차원(dimension)의 특징
=두 점사이의 거리를 구하는 수식은 차원에 상관없이 적용이 가능
=차원의 저주(curse of dimensionality) –차원이 올라가며 생기는 문제들
==d=784인 mnist 샘플의 화소가 0,1이면 2^784 의 공간에 6만개 이상이 존재
=d가 다음과 같을때
|
X1 |
X2 |
X3 |
1 |
5 |
10 |
20 |
2 |
6 |
30 |
180 |
차원이 증가할수록 데이터가 sparse 하게 변한다
->차원의 축소(dimension reduction)이 중요함
붓꽃(Iris) 데이터
=꽃받침 길이, 너비, 꽃잎길이, 너비를 측정해 기록한 data, 3종류의 붓꽃을 대상으로 조사했으며 각 품종당 1,2,3 으로 표기함
=D=4, 4차원의 data가 생성된다
선형회귀 문제
->y=wx+b 를 만족하는 수식을 찾는 것
목적함수(Objective function & 비용함수(cost function)
=평균제곱오차
==회귀선을 벗어나는 오차에 대해 오차를 모두 더하면 0이 되기 때문에 제곱을 통해 0이 나오지 않게 하는 것
댓글 없음:
댓글 쓰기