Kusee's Blog: Day_03. 선형대수-2

2021년 3월 2일 화요일

Day_03. 선형대수-2

분해의 정의
=분해(decomposition)
=행렬을 소인수분해 하듯 여러 행렬로 나눈다
=시간과 비용을 줄이기 위해 데이터를 쪼개보는 것

간결함의 원칙
=대표성을 가지는 일부를 통해 전체를 유추하는 것, 고유값&고유벡터를 이용해서 실시한다

고유값분해, 스팩트럼 분해 : 대칭행렬에서 사용(Spectral Decomposition)
특이값분해 : 일반행렬에서 사용

Spectral Decomposition
한 개의 대칭행렬이 여러 개의 합으로 분해, 행렬 n*n의 고유값을 대각행렬로 두고 분해를 실시한다, 대각행렬 생성에서 큰 값이 위로간다

특이값 분해 (Singular value Decomposition SVD)
=정방행렬이 아닌 일반 행렬의 분해는 어떻게 진행되는가?
--행렬근사나 최소제곱 기법에서 유용하게 사용된다

특이값 분해의 활용
=행렬의 근사, 이미지&영상 압축

데이터의 유형

데이터	정성적	범주형(이산형,categorical)	명목형(Nominal)	성별,직종
			순위형(cardinal)	5점척도,설문,학점
	정량적	연속형(수치형, continuous)	구간형(Interval)	온도,농도
			비율형(Ratio)	절대온도,면적,키

예측, 분석모형 데이터 구조
=테이블 형태를 취한다

관찰값	설명변수x=Input

용어정리
=output - Y, 반응변수, 종속변수, endogenous, 목표변수
=input – X, 설명변수, 독립변수, dimension, 특징, predictors, features
=observation - n, tuple, 관찰값

수업중 사용 교재 소개 – 한빛미디어 기계학습(오일석)

분석모형의 분류와 특징

일반 선형화 모형	회귀모형,로지스틱 회귀
신경망	(정확도 높음, 해석성 낮음)
의사결정	(정확도 낮음, 해석성 높음)

설명변수 X / 반응변수 Y	연속형	범주형
연속형	선형회귀	로지스틱
범주형	분산분석	분할표분석(하나의X, 로지스틱,로그선형(다수의X)
연속 + 범주	공분산 분석	로지스틱 모형

기계학습 개념
=데이터에서 가장 많은 점을 지나는 선을 찾는 행위
=과거의 X를 가지고 관쳬식을 찾아서 미래를 예측하는 것

기계학습의 훈련집합
=2차원 공간에서 X는 입력, 특징 Y는 출력, 결과
=1차함수 생성 Y=Wx+b
----w – weight,가중치 계수
----b – bias 정편, intersept
===최적의 매개변수를 찾는 과정

기계학습의 모형 검증
=모형 구축에서 사용한 값을 그대로 사용하면 의미가 없음
=case를 나누어 일정 비율은 검증에 사용해샤 한다
=훈련 set , test set으로 나눈다 ,통상 7:3의 비율을 가진다

기계학습의 궁극적 목표
=훈련집합에 없는 새로운 샘플에 대한 오류 최소화
=test set에 높은 성능을 보여야 함 ( 이를 일반화 능력이라함)

	X	Y
X 항목	X-Train area	Y-Train area	Training set
X항목	X-Test area	Y-Test area	Test set

Kusee's Blog

2021년 3월 2일 화요일

Day_03. 선형대수-2

댓글 없음:

댓글 쓰기