2019년 9월 29일 일요일

Chp3. 변이와 분포 측정

본론
"범위(range)와 변화량(variation)을 배운다"

다음 점수표에서 어떤 선수가 가장 실적이 좋은가
Player - 1 7 8 9 10 11 12 13
도수 1 1 2 2 2 1 1
Player - 2 7 9 10 11 13
도수 1 2 4 2 1
Player - 3 3 6 7 10 11 13 36
도수 2 1 2 3 1 1 1

세선수 모두 total = 100 , avg=10 , mean=10 이다
위의 상황에서 누가 최고인지 어떻게 구별하는가
*평균은 데이터의 중심을 보여주나 전체 형상이 어떤지 알려주지 않는다*

범위의 측정
range - 데이터가 얼마나 많은 숫자값을 포함하고 있는지 알려준다

가장 작은값 = 하한(lower bound)
가장 큰값 = 상한(upper bound)
상한에서 하한값을 빼면 범위가 나온다

이상치의 등장
범위에서 이상치가 존재시 어떻게 되는가?

tag <-c(1,2,3,4,5,10)
value <-c(3,4,5,4,3,10)
plot(tag,value)
savePlot("3-1-1.png",type="png")

범위의 함정
범위의 단순함에 속아서 어떤일이 있는지 알기 어렵다

이상치로부터 떨어지기
3-1-2.jpg

이상치를 무시하고 가운데 범위를 취한다(초록색)

사분위수
이상치를 무시하는 미니범위 구성하기
1.값들을 증가하는 방향으로 나열한다
2.모든값을 1/4로 나눈다
ex)
1 1 1 2 2  2 2 3 3 3  3 3 4 4 4  4 5 5 5 10
|---------||---------||---------||---------|
q0    q1        q2          q3 q4
q0= 하한
q1= 하한 사분위수  전체 데이터의 하한 25%
q2= 중앙값
q3= 상한 사분위수  전체 데이터의 상한 25%
q4= 상한
q1~3 까지의 기준을 가지고 미니범위를 도출 가능하다

하한 사분위수
1.n/4
2.결과 정수= 해당 위치 다음수
3.결과 정수x=올림 연산
상한 사분위수
1.3n/4
2.결과 정수= 해당 위치 다음수
3.결과 정수x=올림 연산

3 6 7 10 11 13 30
도수 2 1 2 3 1 1 1
3 3 6 7 7 10 10 10 11 13 30


데이터의 집합의 범위 =상한-하한 30-3=27
q1=n=11 11/4=3 --> 3번째수
q2=33/4=9(올림)  ---> 9번째수
사분점위 q3-q1= 11-6 = 5

데이터가 분포되어있는 방식이 왜 중요한가?
평균은 일차적 시각을 제공함 , 다차원적 정보가 중요함

중앙값과 사분위 값의 차이
중앙값=데이터의 한가운데
사분범위=하위 25% 상위 25%

사분범위 사용이유
이상치(극저,고값)에 대한 영향을 줄이기 위해

사분범위를 넘어서 더 많은 부분으로도 나눌수 있는가?
있음

데이터 집합을 세밀하게 나누기
백분위수 = 데이터를 퍼센트 기준으로 나누기
(10번째 백분위수=데이터의 10%지점에서 나누는값)
k번째 백분위수 = 데이터를 k%에서 나눠주는값
(벤치마킹,등수를산출하기 좋다P  라고 표현한다
                                   k

백분위수 찾기
1.모든값을 오름차순 나열
2.n개의 숫자에서 k번째 백분위수 찾기=k(n/100)
3.결과 조회
정수 = 해당 정수와 다음정수의 평균
비정수 = 올림
ex)125개의 숫자에서 10번째 백분위수 구하기
10(125/100)=1250/100=12.5 올림=13

백분위수를 다루는 그래프
상자수염(box and whister diagram) 혹은 상자그림(box plot)
3-1-3.png

특징
상한,하한의 폭이 작고 상자의 폭(사분위수)이 작은게 예측하기 좋은 점수치
사분범위와 상자 수염 그래프의 문제

예측하기 좋은 점수치
사분 범위와 상자 수염 그래프의 문제
얼마나 자주 상한, 하한의 점수가 발생했는지 "도수"는 말해주지 않는다

변이와 평균거리
평균거리 구하기
1,2,9 3개의 평균=4
평균거리=(1에서 μ까지)+(2에서 μ까지)+(9에서 μ까지) /3 = 0
*어떤 집단이던 평균으로부터 평균거리는 0 이다)

거리를 "양수"로 만드는 방안이 필요하다
--->"분산"의 등장 * 분포를 특정하는 방법*

평균(거리)^2 =(1에서 μ까지)^2+(2에서 μ까지)^2+(9에서 μ까지)^2 /3 = 38/3=12.67

분산의 문제
"거리를 제곱한건 분포의 형상이 알기 어렵다는것"

--->"표준편차" 의 필요성
분산에 제곱근(√분산)=σ 라고 쓴다

분산식 간단하게
Σ(x-μ)^2/n = Σ(x-μ)(x-μ)
=Σx^2-μ^2 / n

표준편차 정리
분포를 측정하는 방법
평균에서 얼마나 이격되어 있는가
큰값= 평균에서 멀다
작다= 평균과 가깝다

표준편차가 0일수도 있는가?
모든값이 동일하다면 표준편차는 0

표준편차의 단위
데이터와 동일한 단위

표준점수
데이터 집합 사이에서의 우열 비교
ex) 선수가 2명 있다
선수-1= μ=70(평균) σ=20(표준편차)
선수-2= μ=40(평균) σ=10(표준편차)
에서 선수 1은 75% 선수2는 55%의 슛 성공율을 보였다면 이중 누가 더 슛을 잘 넣었나? %만으로는 알기 쉽지않다

***데이터 집합 사이에서의 비교= 표준점수***

표준점수 표기=Z
공식=Z=x-μ/σ

선수-1=75-70/20=0.25
선수-2=55-40/10=1.5
**선수-2가 더 높은 성공율**

표준점수의 해석
서로다른 평균과 표준편차를 가진 데이터 집합을 비교가능하게 해준다
데이터 집합이 동일한 집합이나 분포에서 온것처럼 만들수 있음

분산&표준편차&범위
범위:데이터의 분포를 특정하기 위한 매우 단순한 방안 , 데이터가 어떻게 모였는지 알려주지 않는다
분산&표준편차:데이터의 중심에서 얼마나 어떻게 퍼져있는지 말해주는 방안

표준점수와 이상치의 기준
표준편차가 3이상일때 데이터값이 이상하다고 할수있다

댓글 없음:

댓글 쓰기