=본뜻은 “옛날 상태로 돌아가다”
=부모-자식간 키의 상관 관계를 연구하여 전체 키가 평균으로 돌아가는 성질을 설명
2.Regression
=인과 관계를 나타냄
=독립변수(원인) 과 종속변수(결과)의 관계
=데이터를 바라보는 통찰력이 중요하다(무엇을 원인/결과 로 두어야 하는지)
3.Regression의변수
=사회과학적 많은 연구가 필요
=변수의 연관성, 원인, 결과, 제3의 요인 파악
=연구자가 주제를 선정 시 인과관계가 전혀 상관없는 요인이 있을수 있기 때문에 주의가 필요
==설명성을 대변하는 요인이 된다
===종속변수 – 변수에 의해 영향을 받아 그 값이 결정 되는 것
===독립변수 – ‘영향’을 미치는 변수
====영향의 양 - 영향력, 기울기, 미분값
4.simple Regression analysis
=통계적으로 유의한 상황에서 독립변수(원인)은 종속변수(결과)에 영향을 준다는 의미
=보통 p-value가 0.05% 미만으로 나타난다
5.simple regression model analysis
=단순 회귀 모형에서 중요한 포인트는 y절편, 기울기, 결정계수 R^2(정확도) 이다
=편차 – 중심선(평균)에서 멀어진 거리
=분산 – 편차 제곱의 평균
=표준편차 – 분산에 제곱근
=F검정 – 회귀식 전체에 대한 유의성 검정 (p-value 0.05미만)
=T검정- 각 독립변수가 개별적으로 유의한 상황인지 확인
6.Multiple Regression – 다중 회귀 분석
=R과 Excel 을 사용한 예시 분석
Excel 을 활용한 분석
Excel을 활용한 simple Regression 확인
Excel을 활용한Multiple Regression
R을 활용한 Multiple Regression
=mtcars data사용(1974년 미국 Motor trend US magazine data)
Mtcars 변수 목록을 통한 예측
=mtcars data사용(1974년 미국 Motor trend US magazine data)
Mtcars 변수 목록을 통한 예측
mpg - Miles/gallon (연비, 1갤런당 몇 마일을 가는가) cyl - Number of cylinders ( 차량 엔진의 실린더의 개수, 펌프같이 움직이는 것) disp - Displacement (배기량) hp - Gross horsepower (마력) drat - Rear axle ratio (후방 축 비율 wt - Weight (1000lbs) 파운드 기준 차량무게 qseq - 1/4 mile time 1/4 마일 간 시간? am - Transmission( 0 = automatic, 1 = manual) 변속기가 자동이냐 아니냐 gear - Number of forward gears 전진기어의 수? (1,2,3 ) carb - Number of carburetors 카뷰레이터 수 (기화기수) |
==어떤 변수가 “종속” 변수이고 “독립” 변수인가? --종속변수=연비mpg --독립변수=연비에 영향을 주는 요소중 가장 영향이 큰 부분은? |
input <- mtcars[,c("mpg","disp","hp","wt")] print(head(input)) |
input <- mtcars[,c("mpg","disp","hp","wt")] model <- lm(mpg~disp+hp+wt,data=input) print(model) |
summary(model) |
Summary의 *의 개수 부분을 주의해서 확인한다 |
변수에 gear 부분 첨가 확인 input <- mtcars[,c("mpg","disp","hp","wt","gear")] model <- lm(mpg~disp+hp+wt+gear,data=input) print(model) |
Gear 부분에 *이 붙어있지 않음을 확인 가능(영향도가 적다는 의미) |
댓글 없음:
댓글 쓰기