2021년 3월 9일 화요일

Day_09. 다중퍼셉트론-용어, 흐름을 중심으로

신경망
=기계학습 역사에서 가장 오래된 학습모델
=1950년->퍼셉트론->1980년대 다중 퍼셉트론(Multi level Perceptron)



퍼셉트론의 한계
=XOR문제의 해결 불가 문제
=1990년대에는 SVM 모델에 밀리는 형국


신경망

신경망

모델

=Feed forward – perceptron

=Multi Level Perceptron

=Deep Multi level Perceptron

 

깊이

=얕은 신경망

(Hidden layer 1~2)

=깊은 신경망

(Hidden Layer 2~3개이상)

 

논리

=결정론(deterministic) – 입력과 출력의 개수가 같다-RBM,DBM을 제외한 모든것

=확률론적(Stochastic) - d입력수와 출력의 수가 다르다 –RBM,DBM 방식, 유사한 패턴을 생성할수 있다

 Perceptron

Perceptron

특징

=입력과 출력층을 가진다( 입력층은 연산을 안하기 때문에 count하지 않는다)

=d개의 노드를 가지는 입력층의 i번째 노드는 특징벡터의 요소 xi

=항상 1이되는 bias (절편) 노드는 x0=1

=출력은 1

=가중치(weight)d+1

 

동작

=입력층에 값이 들어오면 입력층에 해당하는 가중치 w와 곱한 결과를 모두 더해 s를 구하고 활성화 함수(Activation Function)을 적용

 

특징

=그래프상에서 독립변수의 개수가 3개 이상은 초평면(Hyper plain) 이라고 함

 

핵심

=그래프의 가중치(weight)를 찾는 것

=And OR 게이트 에서는 x(독립변수)2개뿐이였지만 현실에선? - d차원공간, 수만개의 sample 에서 어떻게 학습 할 것인가?

=최적의 목적함수를 찾기 위한 조건 J(w)=0 이 되게한다

=w가 최적이면 모든 샘플을 다 맞추면 J(w)=0이된다

=틀리는 샘플이 많은 w일수록 J(w)가 커지는것

=그라디언트 calculate 경사하강법을 사용


다중 퍼셉트론(MultiLayer Perceptron)
=퍼셉트론은 선형(Linear) 분류하는데 한계가 있다 –XOR 을 구분할수 없음

특징
=은닉층(Hidden Layer)를 둔다
=Sigmoid function(s형태의 함수 라는뜻) 을 사용한다
==계단함수보다 부드러운 형태


공간 분리의 soft hard 함수 분류
=hard – step(계단)함수
=soft - sigmoid, hyperbolic tangent – 모든 구간의 미분이 가능하다, 속도가 빠르다


Deep learning 의 특징
=logistic 이나 hyperbolic tangent를 많이 사용하면 종국에는 값이 0이된다, 이때 Relu 함수를 사용해서 이를 해결한다


Hyper parameter
=신결망 설계시 사용자가 지정하는 매게변수


Layer의 개수
=입력층은 count 하지않는다
=은닉층의 은닉 node를 몇 개로 할것인가가 중요, P가 너무크면 과적합, 작으면 과소적합



Layer에서 가중치 계수 확인


은닉층은 특징벡터를 분류에 유리한 특징 공간으로 변화하는 것
=feature extractor 가능



오류의 역전파 알고리즘
=error back propagarion algorithm

훈련집합=특징

훈련집합

특징벡터, 분류벡터로 분류,

분류벡터 표기-one-hot-code

사용하는 함수(step,sigmoid 등등)에 따라 0,-1 등이 다르다

 

기호표기 방식



기계학습의 목표

모든 sample을 옳게 분류하는 함수를 찾는다

가중치 업데이트 방식

온라인(stochastic), 배치 방식이 있고 미분의 용의성을 위해 앞에 1/2를 곱해준다



Mini-batch 방식
=효율적 연산을 위해 이전단계 값을 저장해서 사용한다
=순서를 섞기 때문에 sample 마다 빈도가 달라질수 있다
=batch와 스토캐스틱의 중간방식
=1회에 사용하는 sample 의 수를 저장해서 사용
=현대 기계학습의 중점기술


휴리스틱 알고리즘
=순수한 최적화 알고리즘으로는 높은 성능이 나오지 않는다
==원인=데이터 희소성,노이즈,잘못된 모델링
=학습을 이용해서 성능을 올린다, end-to-end 방식 사용

댓글 없음:

댓글 쓰기