회귀분석
2가지 변수(독립,종속)변수가 있음 x=독립/설명변수 y=반응/종속 변수 |
단순 회귀 분석 = 1개의 설명변수 다중 회귀 분석 = 여러 개의 설명변수 ==학력은 명목척도이다, 사용에 주의가 필요하고 대졸이상=1,고졸이하=0 등의 수치로 바꾼다 |
변수의 표현
사각형 = 단일변수 원형 = 다양한 변수의 묶음 |
Ex)연봉 근속년수, 학력을 이용해 다중/단순회귀를 실시하고 결정계수를 비교해 회귀공식 완성하기
데이터 단순회귀는 “연수”만 이용하고 다중회귀는 연수,학력을 동시에 이용한다 |
단순회귀 분석 |
다중회귀분석 |
논문 찾아보기
SAINT – 로욜라도서관 – RISS – 정화민 지역축제 논문검색 |
검색된 논문에서 표6을 보면
==”유의확률”이 0.05 미만에서 유의하기 때문에 행사 내용이 가장 중요한 부분임을 알수 있음
로지스틱 회귀분석
사용처 |
예측하고자 하는 목표변수(y)의 번주를 분류하기위해 사용 ==구매예측,신용평가 모형에서 사용 |
장점 |
단점 |
선형통계 이론에 기반하여 정교하고 체계적 추정이 가능 =확률모형이기 때문에 목표변수에 확률 추정 가능 =추정된 모형에 대한 해석이 가능 |
=Set의 차원이 많을 때 정확도에 문제가 발생한다 =x의 값이 매우 커지거나 작아지면 확률이 1이나 0에 매우 가까워짐 =반복 계산시 과적합 위험 =복잡한 비선형 분류에서 정확도가 낮음 |
논문 찾아보기
표1 = 빈도분석 |
표3=분포차이 |
표5 = p,
exp(b)값을 중요하게 봐야 한다 |
R-studio 의 내장 데이터인 Mtcars 를 대상으로한 회귀분석 실습
이분형 회귀분석 (Binomial Logistic Regression 자동차 이진값인 am(자동/수동) 을 종속변수로 두고 실시한 회귀분석 |
변수 소개 Mpg= miles/gallon – 연비, 1갤런에 가는 마일 Cyl = number of cylinders - 차량 실린더 개수 Disp = displacement- 배기량 Hp = gross horsepower – 마력 Drat – rear axle ratio – 후방축 비율 Wt = weight - 1000파운드 기준 차량 무게 Qseq = 1/4 mile time Vs = ?? Am = transmission (0=auto 1=manual) |
실습 시작
input <- mtcars[,c("mpg","disp","hp","wt")] print(head(input)) |
input <-
mtcars[,c("mpg","disp","hp","wt")] model <-
lm(mpg~disp+hp+wt,data=input) print(model) |
mtcars 데이터 세트에서 이진값 am을 종속변수 hp,wt cyl을 독립변수로한 logistic regression
input <-
mtcars[,c("am","cyl","hp","wt")] print(head(input)) |
input <-
mtcars[,c("am","cyl","hp","wt")] am.data =
glm(formula = am ~cyl + hp + wt,data=input,family = binomial) print(summary(am.data))
==am 뒤에 ~는 종속변수 표시 ==출력에서 *가 붙어있어야 유의간 값이다 ==wt의 –값은 무게가 무거울수록 나빠진다는 의미임 |
댓글 없음:
댓글 쓰기