2021년 3월 2일 화요일

Day_03. 선형대수-2

분해의 정의
=분해(decomposition)
=행렬을 소인수분해 하듯 여러 행렬로 나눈다
=시간과 비용을 줄이기 위해 데이터를 쪼개보는 것


간결함의 원칙
=대표성을 가지는 일부를 통해 전체를 유추하는 것, 고유값&고유벡터를 이용해서 실시한다

고유값분해, 스팩트럼 분해 : 대칭행렬에서 사용(Spectral Decomposition)
특이값분해 : 일반행렬에서 사용



Spectral Decomposition
한 개의 대칭행렬이 여러 개의 합으로 분해, 행렬 n*n의 고유값을 대각행렬로 두고 분해를 실시한다, 대각행렬 생성에서 큰 값이 위로간다


특이값 분해 (Singular value Decomposition SVD)
=정방행렬이 아닌 일반 행렬의 분해는 어떻게 진행되는가?
--행렬근사나 최소제곱 기법에서 유용하게 사용된다



특이값 분해의 활용
=행렬의 근사, 이미지&영상 압축

데이터의 유형

데이터

정성적

범주형(이산형,categorical)

명목형(Nominal)

성별,직종

 

 

 

순위형(cardinal)

5점척도,설문,학점

 

정량적

연속형(수치형, continuous)

구간형(Interval)

온도,농도

 

 

 

비율형(Ratio)

절대온도,면적,

 



예측, 분석모형 데이터 구조
=테이블 형태를 취한다

관찰값

설명변수x=Input

 

 

 

 

 

 


용어정리
=output - Y, 반응변수, 종속변수, endogenous, 목표변수
=input – X, 설명변수, 독립변수, dimension, 특징, predictors, features
=observation - n, tuple, 관찰값



수업중 사용 교재 소개 – 한빛미디어 기계학습(오일석)

분석모형의 분류와 특징

일반 선형화 모형

회귀모형,로지스틱 회귀

신경망

(정확도 높음, 해석성 낮음)

의사결정

(정확도 낮음, 해석성 높음)

 

 

설명변수 X / 반응변수 Y

연속형

범주형

연속형

선형회귀

로지스틱

범주형

분산분석

분할표분석(하나의X, 로지스틱,로그선형(다수의X)

연속 + 범주

공분산 분석

로지스틱 모형



기계학습 개념
=데이터에서 가장 많은 점을 지나는 선을 찾는 행위
=과거의 X를 가지고 관쳬식을 찾아서 미래를 예측하는 것

기계학습의 훈련집합
=2차원 공간에서 X는 입력, 특징 Y는 출력, 결과
=1차함수 생성 Y=Wx+b
----w – weight,가중치 계수
----b – bias 정편, intersept
===최적의 매개변수를 찾는 과정

기계학습의 모형 검증
=모형 구축에서 사용한 값을 그대로 사용하면 의미가 없음
=case를 나누어 일정 비율은 검증에 사용해샤 한다
=훈련 set , test set으로 나눈다 ,통상 7:3의 비율을 가진다

기계학습의 궁극적 목표
=훈련집합에 없는 새로운 샘플에 대한 오류 최소화
=test set에 높은 성능을 보여야 함 ( 이를 일반화 능력이라함)

 

X

Y

 

X 항목

X-Train area

Y-Train area

Training set

X항목

X-Test area

Y-Test area

Test set

 

댓글 없음:

댓글 쓰기