2020년 10월 11일 일요일

Day_05. 빅데이터 분석체계

빅데이터 분서체계 Level NCS 기준

빅데이터 직군에서 최상단은 기획

=Level-7수준, 현재 수업은 level 6수준이다

=기획은 BM을 만드는 직군이기 때문에 하단의 모든 업무를 알아야만 한다

=Level6는 전문가 그룹의 시작단계

=통계분야를 알아야 전문가 그룹으로 진입이 가능하다

 

지도학습과 비지도 학습의 가장 큰 차이

=지도학습은 Y(목적변수)가 있으나 비지도 학습은 y의 값이 존재하지 않는다

 

분류목적의 Machine Learning

K-최근접 이웃(KNN)

가장 비슷한 속성을 가지는 이웃을 근처에 둔다

Decision Tree

의료부분에서 많이사용하는 방식

Random Forest

의사결정 Tree를 모아두는 방식

인공신경망

회귀와 흡사함

SVM

데이터 분류를 위한 구분선을 긋는 것

나이브베이즈

조건부 확률을 이용한 분류기법

 

Decision Tree 분류방식

=목표변수의 분류나 예측에 영향을 미치는 독립변수(x,설명,입력변수) 속성 기준값에 의해 뿌리부터 확장된다

=수학적 지식이 없이도 이해가 쉽다

=분류의 차이를 보는 것으로 카이제곱이 사용딘다

=명목형 철도에 대한 분류가 잘된다

 

실습과정

IRIS 데이터(붓꽃)를 활용한 분석 꽃의 꽂잎,받침의 길이를 통해 품종을 분류, Decision tree 사용

Decision Tree 분석 실습

install.packages("party")

library(party)

data(iris)

head(iris)

samp <- c(sample(1:50,25),sample(50:100,25),sample(100:150,25))

#훈련용 데이터 생성

#1~50번에서 25 , 50~100 번에서 25 , 100~150 번에서 25개 추출

iris.tr <-iris[samp,]

#훈련용 데이터 75

iris.te <-iris[-samp]

#검증용으로 훈련용에서 제외

iris_ctree <-ctree (Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data=iris.tr)

 

plot(iris_ctree)

x <- subset(iris.te,select=-Species)

y <- iris.te$Species

DT_pred <- predict(iris_ctree.x)

table(DT_pred,y)

 

나이브베이즈 실습

=스펨필터, 문서분류,질병진단,고객 이탈 예측, 네트워크 진단

=빠르고 효과적인 분류능력을 가지는 성능

=확률값을 필요로 하는 상황에서는 사용할 수 없음

install.packages("e1071")

library(e1071)

data(iris)

samp <- c(sample(1:50,35),sample(51:100,35),sample(100:150,35))

iris.tr <-iris[samp,]

iris.te <-iris[-samp,]

m <-naiveBayes(Species ~ .,data=iris.tr)

pred <-predict(m,iris.te[-5])

table(iris.te[,5],pred)

##오류를 확인한다

Versicolor 에서 0 13 1 을 보면 1건의 훈련이 실패한 것을 알수 있다

 

KNN-최근접 이웃

이미지와 비디오로 구성된 광학문자, 안면인식에 사용된다

install.packages("class")

library(class)

data(iris)

y <-iris [,5]

tr.idx <-sample (length(y),75)

x.tr <-iris[tr.idx,-5]

x.te <-iris[-tr.idx,-5]

m <-knn (x.tr,x.te,y[tr.idx],k=3)

yy <-y[-tr.idx]

table(yy,m)

##오류율을 확인해야 한다

Versicolor 0 22 1 에서 versicolor 지만 virginica 1 1개가 오류

Virginica 0 2 20 에서 virginica 지만 versicolor 2개가 잘못 판단되었다

 


댓글 없음:

댓글 쓰기