2021년 3월 25일 목요일

Day_03. Regression

1.Regression 의 역사
=본뜻은 “옛날 상태로 돌아가다”
=부모-자식간 키의 상관 관계를 연구하여 전체 키가 평균으로 돌아가는 성질을 설명


2.Regression
=인과 관계를 나타냄
=독립변수(원인) 과 종속변수(결과)의 관계
=데이터를 바라보는 통찰력이 중요하다(무엇을 원인/결과 로 두어야 하는지)


3.Regression의변수
=사회과학적 많은 연구가 필요
=변수의 연관성, 원인, 결과, 제3의 요인 파악
=연구자가 주제를 선정 시 인과관계가 전혀 상관없는 요인이 있을수 있기 때문에 주의가 필요
==설명성을 대변하는 요인이 된다
===종속변수 – 변수에 의해 영향을 받아 그 값이 결정 되는 것
===독립변수 – ‘영향’을 미치는 변수
====영향의 양 - 영향력, 기울기, 미분값

y절편,기울기를 설명 가능해야 한다


4.simple Regression analysis
=통계적으로 유의한 상황에서 독립변수(원인)은 종속변수(결과)에 영향을 준다는 의미
=보통 p-value가 0.05% 미만으로 나타난다


5.simple regression model analysis
=단순 회귀 모형에서 중요한 포인트는 y절편, 기울기, 결정계수 R^2(정확도) 이다
=편차 – 중심선(평균)에서 멀어진 거리
=분산 – 편차 제곱의 평균
=표준편차 – 분산에 제곱근
=F검정 – 회귀식 전체에 대한 유의성 검정 (p-value 0.05미만)
=T검정- 각 독립변수가 개별적으로 유의한 상황인지 확인


6.Multiple Regression – 다중 회귀 분석
=R과 Excel 을 사용한 예시 분석


Excel 을 활용한 분석





Excel을 활용한 simple Regression 확인


Excel을 활용한Multiple Regression


R을 활용한 Multiple Regression
=mtcars data사용(1974년 미국 Motor trend US magazine data)


Mtcars 변수 목록을 통한 예측
mpg - Miles/gallon (연비, 1갤런당 몇 마일을 가는가)
cyl - Number of cylinders ( 차량 엔진의 실린더의 개수, 펌프같이 움직이는 것)
disp - Displacement (배기량)
hp - Gross horsepower (마력)
drat - Rear axle ratio (후방 축 비율
wt - Weight (1000lbs) 파운드 기준 차량무게
qseq - 1/4 mile time 1/4 마일 간 시간?
am - Transmission( 0 = automatic, 1 = manual) 변속기가 자동이냐 아니냐
gear - Number of forward gears 전진기어의 수? (1,2,3 )
carb - Number of carburetors 카뷰레이터 수 (기화기수)
==어떤 변수가 “종속” 변수이고 “독립” 변수인가?
--종속변수=연비mpg
--독립변수=연비에 영향을 주는 요소중 가장 영향이 큰 부분은?


input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))
input <- mtcars[,c("mpg","disp","hp","wt")]
model <- lm(mpg~disp+hp+wt,data=input)
print(model)
summary(model)
Summary의 *의 개수 부분을 주의해서 확인한다
변수에 gear 부분 첨가 확인
input <- mtcars[,c("mpg","disp","hp","wt","gear")]
model <- lm(mpg~disp+hp+wt+gear,data=input)
print(model)
Gear 부분에 *이 붙어있지 않음을 확인 가능(영향도가 적다는 의미)

 

댓글 없음:

댓글 쓰기