2019년 9월 28일 토요일

Chp1. 정보의 시각화

본론
통계의 목적
혼란스런 데이터부터 의미를 찾아내 복잡한걸 간단하게 만드는것

통계의 정의(통계는 어디에나 있다!)
날것 그대로의 사실과 숫자들을 뭔가 의미있는 방식으로 정리해주는것

통계의 단계
데이터의 수집(데이터의 뿌리) -> 분석 -> 결론도출

통계의 학습목적
"통계는 사실에 기초하나 사실을 "호도하기" 쉽다 - 속아넘어가지 않기위해

month<-c(7,8,9,10,11,12)
benefit<-c(2.0, 2.1, 2.2, 2.1, 2.3 ,2.4)
plot(month,benefit)
savePlot("1-1-1.png",type="png")

그래프에서 y축을 0.5 단위로 지정하면 증가폭이 미세해진다

그래프를 만드는 이유
원시 데이터만 가지고는 무슨일이 일어나는지 알기 어렵다

정보와 데이터
데이터
수집된 날것 그대로의 사실,수치
정보
수집된 데이터에서 의미가 있는것

데이터의 표현
파이차트 - pie chart
kuseees <- c(50,32,20,15,10)
pie(kuseees , init.angle=90,col=rainbow(length(kuseees)),labels=c("레오나","럭스","가렌","문도","노틸"))
savePlot("1-1-2.png",type="png")


파이차트의 조각은 항목의 도수(Frequency)로 정해진다
파이차트가 필요한 순간
기본적 비율의 비교를 위해-어떤 항목이 높은 비율을 가지는지 쉽게 보기에 좋다

막대그래프
비율을 나타내기 좋음
수직,수평으로 그릴수있고 차이는 수평일때 변수를 적기 좋다
**퍼센트를 눈금으로 제공시(도수를 제공하지않고) "비율만을" 제공하면 보는사람을 속이기 쉽다**
**1000명중 90%와 10명중 90%는 다르기때문**

**도수눈금 사용시 "시작이 0" 인지 확인해보는것도 좋다 , 단위에 따라 느낌이 아예 다른 그래프가 나오기 때문이다**

복수의 데이터 집합 다루기
http://matchhistory.leagueoflegends.co.kr/ko/#match-details/KR/3877898900/2097542890287040?tab=overview
1번에 2개의 정보를 동시에 그래프에 담아내기
2.png


데이터의 종류
수치적 데이터(numerical data) - 정"량"적 데이터(quantitative)
ex)무게,시간,길이

범주적 데이터(categorical data) - 정"성"적 데이터(qualitative)
ex)강아지의 품종 ,게임의 장르 , 디저트 타입
히스토그램 , 막대그래프
**막대의 면적이 도수에 비례 , 막대 사이에 공간이 없다**

히스토그램 생성시
**x축의 폭을 먼저 정한다**
범위를 어떻게 나눳는지 먼저 확인하는것

****Key Point****
히스토그램의 용도는 수치적 data를 위한 그래프인가?
도수와 구간의 폭을 보고자 할때 사용한다

구간의 폭이 다르면 히스토그램을 사용하지 못하나?
선절차가 있지만 가능하다

막대 사이는 꼭 붙어야하는가
항상 만나야한다 , 반올림하는 방식에 차이로 나눠지는곳은 틀리나 붙어있어야한다
예외는 없는가?
나이를 나타낼때 18~19 세 구간을 18~20 으로 나누어서  19.5세도 19세에 포함될수 있도록 하는 경우가 많다

도수 : 하나의 범주에 얼마나 많은 값이 있는가
파이차트 : 기본 속성을 나타내기 적합하다

막대그래프 : 유연하고 정확한 표현에 좋음

수치 데이터 : 숫자와 정량적

범주데이터 : 단어, 정성적

도수밀도 : 그룹으로 묶인 데이터가 얼마나 집중되어 있는지 나타내는것
도수밀도 = 도수/그룹의폭

히스토그램
그룹으로 묶인 데이터를 위한 차트
히스토그램의 도수 = 막대의 면적

히스토그램이 하지 못하는것
시시각각 변하는 데이터의 누적합계

누적도수
특정값이하의 값을 가지는 항목들에 대한 총합
이전의 값과 새로운 값을 더해서 Y쪽의 누적도수에 해당값을 적음
누적도수 그래프는 그룹 수치 데이터 모두 사용가능하다
**시작은 0에서 시작하고 누적도수는 절대 줄어들지 않는다**

선그래프의 특징
시간흐름의 데이터 변동을 나타내기 좋다

****Extra****
히스토그램의 x축의 폭이 다른것의 표현
**원래는 막대의 면적을 도수에 비례하게 만들어야함**
ex)
시간 도수
0~1 4300
1~3 6900
3~5 2000
5~10 2000
10~24 2100

다음의 table을 어떻게 그래프로 만들어야 할까

Step - 1 - 막대의 폭을 잡는다
0~1=1 1~3=2 3~5=2 5~10=5 10~24=14

Step - 2 - 막대의 높이를 찾기
도수와 면적이 서로 비례해야한다
면적 = 도수 (넒이 = 막대의 폭*높이)
폭=step-1의 결과
높이=도수/폭
막대의 높이=도수밀도

높이계산
시간 도수 높이
0~1 4300 1 4300
1~3 6900 2 3450
3~5 2000 2 1000
5~10 2000 5 400
10~24 2100 14 150

Step - 3 - 히스토그램 그리기

댓글 없음:

댓글 쓰기