2020년 10월 2일 금요일

Day_04. Multiple / Logistic Regression – 다중 , 로지스틱 회귀

회귀분석

2가지 변수(독립,종속)변수가 있음 x=독립/설명변수 y=반응/종속 변수

단순 회귀 분석 = 1개의 설명변수

다중 회귀 분석 = 여러 개의 설명변수

==학력은 명목척도이다, 사용에 주의가 필요하고 대졸이상=1,고졸이하=0 등의 수치로 바꾼다

변수의 표현

사각형 = 단일변수

원형 = 다양한 변수의 묶음

 

Ex)연봉 근속년수, 학력을 이용해 다중/단순회귀를 실시하고 결정계수를 비교해 회귀공식 완성하기

데이터

단순회귀는 연수만 이용하고 다중회귀는 연수,학력을 동시에 이용한다

단순회귀 분석

다중회귀분석

 

논문 찾아보기

SAINT – 로욜라도서관 – RISS – 정화민 지역축제 논문검색

검색된 논문에서 표6을 보면

==”유의확률 0.05 미만에서 유의하기 때문에 행사 내용이 가장 중요한 부분임을 알수 있음

 

로지스틱 회귀분석

사용처

예측하고자 하는 목표변수(y)의 번주를 분류하기위해 사용

==구매예측,신용평가 모형에서 사용

장점

단점

선형통계 이론에 기반하여 정교하고 체계적 추정이 가능

=확률모형이기 때문에 목표변수에 확률 추정 가능

=추정된 모형에 대한 해석이 가능

=Set의 차원이 많을 때 정확도에 문제가 발생한다

=x의 값이 매우 커지거나 작아지면 확률이 1이나 0에 매우 가까워짐

=반복 계산시 과적합 위험

=복잡한 비선형 분류에서 정확도가 낮음

 

 

논문 찾아보기



1 = 빈도분석

3=분포차이

5 = p, exp(b)값을 중요하게 봐야 한다

 

R-studio 의 내장 데이터인 Mtcars 를 대상으로한 회귀분석 실습

이분형 회귀분석 (Binomial Logistic Regression

자동차 이진값인 am(자동/수동) 을 종속변수로 두고 실시한 회귀분석

변수 소개

Mpg= miles/gallon – 연비, 1갤런에 가는 마일

Cyl = number of cylinders - 차량 실린더 개수

Disp = displacement- 배기량

Hp = gross horsepower – 마력

Drat – rear axle ratio – 후방축 비율

Wt = weight - 1000파운드 기준 차량 무게

Qseq = 1/4 mile time

Vs = ??

Am = transmission  (0=auto 1=manual)

 

실습 시작

input <- mtcars[,c("mpg","disp","hp","wt")]

print(head(input))

input <- mtcars[,c("mpg","disp","hp","wt")]

model <- lm(mpg~disp+hp+wt,data=input)

print(model)

 

mtcars 데이터 세트에서 이진값 am을 종속변수 hp,wt cyl을 독립변수로한 logistic regression

input <- mtcars[,c("am","cyl","hp","wt")]

print(head(input))

input <- mtcars[,c("am","cyl","hp","wt")]

am.data = glm(formula = am ~cyl + hp + wt,data=input,family = binomial)

print(summary(am.data))

 

==am 뒤에 ~는 종속변수 표시

==출력에서 *가 붙어있어야 유의간 값이다

==wt값은 무게가 무거울수록 나빠진다는 의미임

 

댓글 없음:

댓글 쓰기