=분해(decomposition)
=행렬을 소인수분해 하듯 여러 행렬로 나눈다
=시간과 비용을 줄이기 위해 데이터를 쪼개보는 것
간결함의 원칙
=대표성을 가지는 일부를 통해 전체를 유추하는 것, 고유값&고유벡터를 이용해서 실시한다
고유값분해, 스팩트럼 분해 : 대칭행렬에서 사용(Spectral Decomposition)
특이값분해 : 일반행렬에서 사용
Spectral Decomposition
한 개의 대칭행렬이 여러 개의 합으로 분해, 행렬 n*n의 고유값을 대각행렬로 두고 분해를 실시한다, 대각행렬 생성에서 큰 값이 위로간다
특이값 분해 (Singular value Decomposition SVD)
=정방행렬이 아닌 일반 행렬의 분해는 어떻게 진행되는가?
--행렬근사나 최소제곱 기법에서 유용하게 사용된다
특이값 분해의 활용
=행렬의 근사, 이미지&영상 압축
데이터의 유형
데이터 |
정성적 |
범주형(이산형,categorical) |
명목형(Nominal) |
성별,직종 |
|
|
|
순위형(cardinal) |
5점척도,설문,학점 |
|
정량적 |
연속형(수치형, continuous) |
구간형(Interval) |
온도,농도 |
|
|
|
비율형(Ratio) |
절대온도,면적,키 |
예측, 분석모형 데이터 구조
=테이블 형태를 취한다
관찰값 |
설명변수x=Input |
|
|
|
|
|
|
|
|
|
용어정리
=output - Y, 반응변수, 종속변수, endogenous, 목표변수
=input – X, 설명변수, 독립변수, dimension, 특징, predictors, features
=observation - n, tuple, 관찰값
수업중 사용 교재 소개 – 한빛미디어 기계학습(오일석)
분석모형의 분류와 특징
일반 선형화 모형 |
회귀모형,로지스틱 회귀 |
신경망 |
(정확도 높음, 해석성
낮음) |
의사결정 |
(정확도 낮음, 해석성
높음) |
설명변수 X / 반응변수 Y |
연속형 |
범주형 |
연속형 |
선형회귀 |
로지스틱 |
범주형 |
분산분석 |
분할표분석(하나의X, 로지스틱,로그선형(다수의X) |
연속 + 범주 |
공분산 분석 |
로지스틱 모형 |
기계학습 개념
=데이터에서 가장 많은 점을 지나는 선을 찾는 행위
=과거의 X를 가지고 관쳬식을 찾아서 미래를 예측하는 것
기계학습의 훈련집합
=2차원 공간에서 X는 입력, 특징 Y는 출력, 결과
=1차함수 생성 Y=Wx+b
----w – weight,가중치 계수
----b – bias 정편, intersept
===최적의 매개변수를 찾는 과정
기계학습의 모형 검증
=모형 구축에서 사용한 값을 그대로 사용하면 의미가 없음
=case를 나누어 일정 비율은 검증에 사용해샤 한다
=훈련 set , test set으로 나눈다 ,통상 7:3의 비율을 가진다
기계학습의 궁극적 목표
=훈련집합에 없는 새로운 샘플에 대한 오류 최소화
=test set에 높은 성능을 보여야 함 ( 이를 일반화 능력이라함)
|
X |
Y |
|
X 항목 |
X-Train area |
Y-Train area |
Training set |
X항목 |
X-Test area |
Y-Test area |
Test set |
댓글 없음:
댓글 쓰기