2021년 3월 18일 목요일

Day_00. What is Bigdata

Bigdata를 어떻게 정의 내릴 것인가
=단순히 데이터의 크기가 크다고 bigdata가 아님
=명확한 크기의 기준이 정해져 있는 것이 아니기 때문
===&& bigdata가 가져야 하는 특징은? 이라는 질문으로 귀결된다
===기존의 RDBMS 시스템에서 활용하기 쉽지 않은 형태가 많다


영국 Gartner에서 바라보는 bigdata 정의
=향상된 의사결정을 위해 필요한 3가지 특징
==High Volume , velocity , variety 3V의 특징을 가지는 정보 자산


O reilly media(출판사) 정의
=기존 conventional database system 의 처리 능력으로는 처리가 힘든 데이터
=데이터 증가 속도가 큰 것
=기존 structure database의 구조에는 맞지 않는 것
=데이터로부터 가치를 뽑기 위해서 기존 방식을 사용할 수 없는 것


IBM의 정의
=speed , complexity , volume (용어의 차이가 있고 gartner와 같음)


현재의 상황
=3V 에서 5V로 증가함
Volume 방대한 데이터 – zetta byte 데이터의 크기, 1byte=쌀1톨 일 때 태평양을 채울 크기
Variety 다양한 소스에서 다양한 형식으로 존재한다
Velocity 1분마다 발생되는 데이터의 양이 엄청남
Value 대량의 data에서 가치인 insight를 추출해낸다
Velocity 진실성, 불확실(unkonown) inconsistent(일관성 부재) 데이터가 있기 때문에 가공함


Bigdata의 dimension diagram



=가치 (각각의 V)별 변화하는 추이를 살펴봐야 한다


데이터의 생성/소비 모델
Old (구 시대) 소수의 미디어에서 생성후 다른 모두가 소비
New/Current (현재) 모두가 생산자이며 소비자가 된다


데이터 분석의 여러 예제
Target Marketing 1000만명의 인구에서 1%인 10만명이 관심 사사용자 할 때 다양한 분류와 군집화를 통해 전체의 10%를 솎아내 마케팅을 한다
Sport 올랜도 매직 구단의 “scout” 인공지능 system의 선수 line-up 추천
Goldcorp challenge 광맥 data를 공개해 핵심 광맥을 찾는 대회로 금광 회사의 가치가 100M$ ~ 9B$로 급성장
Netflix House of cards 드라마 구상중 고객의 선호도가 david fincher 감독과 케빈 스페이시 주연을 바라는 것 파악함

 


댓글 없음:

댓글 쓰기