빅데이터 분서체계 Level의 NCS 기준
빅데이터 직군에서 최상단은 “기획”
=Level-7수준, 현재 수업은 level 6수준이다
=기획은 BM을 만드는 직군이기 때문에 하단의 모든 업무를 알아야만 한다
=Level6는 전문가 그룹의 시작단계
=통계분야를 알아야 전문가 그룹으로 진입이 가능하다
지도학습과 비지도 학습의 가장 큰 차이
=지도학습은 Y값(목적변수)가 있으나 비지도 학습은 y의 값이 존재하지 않는다
분류목적의 Machine Learning
K-최근접 이웃(KNN) |
가장 비슷한 속성을 가지는 이웃을 근처에 둔다 |
Decision Tree |
의료부분에서 많이사용하는 방식 |
Random Forest |
의사결정 Tree를 모아두는 방식 |
인공신경망 |
회귀와 흡사함 |
SVM |
데이터 분류를 위한 구분선을 긋는 것 |
나이브베이즈 |
조건부 확률을 이용한 분류기법 |
Decision Tree 분류방식
=목표변수의 분류나 예측에 영향을 미치는 독립변수(x값,설명,입력변수) 속성 기준값에 의해 뿌리부터 확장된다
=수학적 지식이 없이도 이해가 쉽다
=분류의 차이를 보는 것으로 카이제곱이 사용딘다
=명목형 철도에 대한 분류가 잘된다
실습과정
IRIS 데이터(붓꽃)를 활용한 분석 – 꽃의 꽂잎,받침의 길이를 통해 품종을 분류, Decision tree 사용 |
Decision Tree 분석 실습 |
install.packages("party") library(party) data(iris) head(iris) samp <- c(sample(1:50,25),sample(50:100,25),sample(100:150,25)) #훈련용 데이터 생성 #1~50번에서 25개 , 50~100 번에서 25개 , 100~150 번에서 25개 추출 iris.tr <-iris[samp,] #훈련용 데이터 75개 iris.te <-iris[-samp] #검증용으로 훈련용에서 제외 iris_ctree <-ctree (Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data=iris.tr) plot(iris_ctree) x <- subset(iris.te,select=-Species) y <- iris.te$Species DT_pred <- predict(iris_ctree.x) table(DT_pred,y) |
나이브베이즈 실습 =스펨필터, 문서분류,질병진단,고객 이탈 예측, 네트워크 진단 =빠르고 효과적인 분류능력을 가지는 성능 =확률값을 필요로 하는 상황에서는 사용할 수 없음 |
install.packages("e1071") library(e1071) data(iris) samp <- c(sample(1:50,35),sample(51:100,35),sample(100:150,35)) iris.tr <-iris[samp,] iris.te <-iris[-samp,] m <-naiveBayes(Species ~ .,data=iris.tr) pred <-predict(m,iris.te[-5]) table(iris.te[,5],pred) ##오류를 확인한다 |
Versicolor 에서 0 13 1 을 보면 1건의 훈련이 실패한 것을 알수 있다 |
KNN-최근접 이웃 이미지와 비디오로 구성된 광학문자, 안면인식에 사용된다 install.packages("class") library(class) data(iris) y <-iris [,5] tr.idx <-sample (length(y),75) x.tr <-iris[tr.idx,-5] x.te <-iris[-tr.idx,-5] m <-knn (x.tr,x.te,y[tr.idx],k=3) yy <-y[-tr.idx] table(yy,m) ##오류율을 확인해야 한다 |
Versicolor 의 0 22 1 에서 versicolor 지만 virginica 로 1 1개가 오류 Virginica 의 0 2 20 에서 virginica 지만 versicolor 로 2개가 잘못 판단되었다 |
댓글 없음:
댓글 쓰기