=단순히 데이터의 크기가 크다고 bigdata가 아님
=명확한 크기의 기준이 정해져 있는 것이 아니기 때문
===&& bigdata가 가져야 하는 특징은? 이라는 질문으로 귀결된다
===기존의 RDBMS 시스템에서 활용하기 쉽지 않은 형태가 많다
영국 Gartner에서 바라보는 bigdata 정의
=향상된 의사결정을 위해 필요한 3가지 특징
==High Volume , velocity , variety 3V의 특징을 가지는 정보 자산
O reilly media(출판사) 정의
=기존 conventional database system 의 처리 능력으로는 처리가 힘든 데이터
=데이터 증가 속도가 큰 것
=기존 structure database의 구조에는 맞지 않는 것
=데이터로부터 가치를 뽑기 위해서 기존 방식을 사용할 수 없는 것
IBM의 정의
=speed , complexity , volume (용어의 차이가 있고 gartner와 같음)
현재의 상황
=3V 에서 5V로 증가함
Volume | 방대한 데이터 – zetta byte 데이터의 크기, 1byte=쌀1톨 일 때 태평양을 채울 크기 |
Variety | 다양한 소스에서 다양한 형식으로 존재한다 |
Velocity | 1분마다 발생되는 데이터의 양이 엄청남 |
Value | 대량의 data에서 가치인 insight를 추출해낸다 |
Velocity | 진실성, 불확실(unkonown) inconsistent(일관성 부재) 데이터가 있기 때문에 가공함 |
Bigdata의 dimension diagram
=가치 (각각의 V)별 변화하는 추이를 살펴봐야 한다
데이터의 생성/소비 모델
Old (구 시대) | 소수의 미디어에서 생성후 다른 모두가 소비 |
New/Current (현재) | 모두가 생산자이며 소비자가 된다 |
데이터 분석의 여러 예제
Target Marketing | 1000만명의 인구에서 1%인 10만명이 관심 사사용자 할 때 다양한 분류와 군집화를 통해 전체의 10%를 솎아내 마케팅을 한다 |
Sport | 올랜도 매직 구단의 “scout” 인공지능 system의 선수 line-up 추천 |
Goldcorp challenge | 광맥 data를 공개해 핵심 광맥을 찾는 대회로 금광 회사의 가치가 100M$ ~ 9B$로 급성장 |
Netflix | House of cards 드라마 구상중 고객의 선호도가 david fincher 감독과 케빈 스페이시 주연을 바라는 것 파악함 |
댓글 없음:
댓글 쓰기