2021년 3월 3일 수요일

Day_04. 특징공간에 대한 이해

Supervised learning : 설명변수 x에 대한 반응변수 y가 있는 것

특징공간
=설명변수 x의 개수에 따라 증가한다


다차원 공간의 예시
=Mnist 필기 데이터
=사람들이 입력한 필기 정보를 8*8 영역에 나타낸다 , 64개의 변수가 있는 상황
=칸 1개당 순번을 지정, 필기시 변수영역에 지나가면 해당 영역 x를 1로 표기한다, 개별적 화소를 특징벡터로 사용시 64차원이 된다

 

X0

X1

..

..

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X63


d차원데이터
=특징 벡터 표기= x=(x1,x2,..)^T – 열벡터를 Transpose 한 의미

d차원 데이터를 위한 학습 모델
=직선모델을 사용하는 경우 매개변수 수 =d+1
=2차원 곡선 모델을 사용시 매게변수 수가 급격히 증가 = d^2 + d+ 1
Ex) d가 변수가 4개인 d=4 일때 4^2 + 4 + 1 =21개의 변수
Ex) mnist 경우 784개 (28*28 = 615441 개의 변수)


선형 분리 불가능한 원래 특징공간 ( Non-linearly Separable)공간 = xor문제

=좌-분리가 어려운 특징
=우-위치를 이동시켜 구분을 쉽게한다, 특정 벡터를 변경하기 위한 수식이 존재한다


표현학습(Representation learning)
=좋은 특징공간을 자동으로 찾는 작업, 좌측에는 개선전, 우측은 개선후의 상황을 배치한다


차원(dimension)의 특징
=두 점사이의 거리를 구하는 수식은 차원에 상관없이 적용이 가능

=보통 2~3차원의 저차원에서 고차원으로 진행한다
=차원의 저주(curse of dimensionality) –차원이 올라가며 생기는 문제들
==d=784인 mnist 샘플의 화소가 0,1이면 2^784 의 공간에 6만개 이상이 존재
=d가 다음과 같을때

 

X1

X2

X3

1

5

10

20

2

6

30

180


차원이 증가할수록 데이터가 sparse 하게 변한다
->차원의 축소(dimension reduction)이 중요함



붓꽃(Iris) 데이터
=꽃받침 길이, 너비, 꽃잎길이, 너비를 측정해 기록한 data, 3종류의 붓꽃을 대상으로 조사했으며 각 품종당 1,2,3 으로 표기함
=D=4, 4차원의 data가 생성된다



선형회귀 문제
->y=wx+b 를 만족하는 수식을 찾는 것

목적함수(Objective function & 비용함수(cost function)
=평균제곱오차
==회귀선을 벗어나는 오차에 대해 오차를 모두 더하면 0이 되기 때문에 제곱을 통해 0이 나오지 않게 하는 것

댓글 없음:

댓글 쓰기