2021년 3월 20일 토요일

Day_01. Bigdata Analytics Life Cycle

Differences among terms Diagram
원으로 들어갈 때 --> Narrowed Problem
=좁아지는 도메인 지식
=넓어지는 프로그래밍(코딩) 능력
원 밖으로 나올 때 <-- Widen insight
=넓어지는 도메인 지식
=좁아지는 프로그래밍 능력


상세 특징
Data Science가장 포괄적 개념
수학, 통계, 프로그래밍, 문제해결의 맥락
일반화 가능한 특징을 나타내는 방법론
데이터를 조금 다르게 바라보는 것
=중요기술
==data cleansing, preparing , aligning

Analysis

휴리스틱(heuristic) activity = 데이터가 같지만 작업자에 따라 결과가 다르다
<->systematic – 같은 데이터로 누가 작업해도 결과가 같은것
Data science 는 분석 결과가 같아야 한다는 보장이 없기 때문이다
=단계의 목적
**어떠한 특징을 얻어내는 것(작업자에 의해 결과는 달라질 수 있다)
Analytics일반화된 model 을 생성 하는 것
결정을 내리는데 필요한 back data 를 생성하는 것
Systematic 한 특성 – model을 기반으로 하기 때문
요구되는 지식
=컴퓨터 사이언스, 수학, 통계, domain knowledge
**output of data analytics is a verified hyphothesis insight into the data
--analytics 의 결과는 데이터에서 검증된 가설을 뽑아내는 것
Mining큰 dataset 에서 특정 pattern 을 추출하는 것
기계학습, 통계 database의 지식이 필요
==프로그래밍 능력이 매우 중요하다
Pattern 을 찾아내는 단계
e-commerce 에서 특정 상품 구매자가 또 구매한 패턴 추출등


Data analytics life cycle
==데이터 분석의 요구사항 해결을 위한 activity는 어떤 것이 있을까?
궁금증의 근거
=기존 traditional data와는 다르게 volume, velocity, variety 특성이 있다

분석 단계
=어떻게 data를 획득 할수 있는가? – 이 데이터를 어떻게 processing 하는가? – processing 의 결과를 어떻게 분석하는가? – 분석된 data를 어떻게 사용할 것인가

단계별 특징
=단계별로 새로운 결과가 나올 수 있음

Data 분석시 필요한 사람들
Customer Layer Business user Domain의 지식이 있는 사람
Project sponser 요구사항을 제공하는 사람(발주처)
Producer layer

Project manager

Project leader
Business intelligence analyst Business domain expertise
DBA DB environment expert
Data engineer Support analytic sandbox developer – 구현
Data scientist Provide analytic techniques & modeling


구성 단계 diagram
단계 이름 설명
1 Business case evaluation =분석의 결과가 무엇인지 명확하게 한다
=Project onject의 이해, 문제를 data mining으로 어떻게 매핑(design)시킬 것인가 논의
=Business problem 의 defined Ekfk 필요한 data들이 다르다, 이를 명확히 하는 단계
2 Data identification =Data의 출처를 명확히 한다
=데이터를 받아온다면 신뢰도를 확인(N/A값이나 맞지 않는 DATA는 있는지)
=다양한 Data source 에서 받아온다면 숨겨진 pattern 과 correlation 은 얼마나 되는지 확인
3 Data acquisition =Data gathering, filtering out of corrupt data, merge
==데이터의 필터링과 머징
=대부분 상황에서 중요한 작업을 시행
==corrupt data – n/a값, 비상식적 데이터
===발생하는 문제 = 모든 n/a와 비상식적 데이터를 삭제 해야 하는가
=meta data 파악
==meta data란? – data의 크기, 구조 mac time 등의 정보가 적혀있는 데이터의 명세서 같은 것
4 Data extraction =몇몇 data tool 에서 추출되지 않는 데이터를 수동 추출
=분석에 사용 하기 위해 알맞은 크기 & 형식으로 추출
==ex)JSON, XML 등에서 DATA 추출
5 Data validation
& cleansing
=데이터의 값, n/a, 형식 검증
=data redundant 검증
6 Data aggregation &
Representation
=data가 여러 곳에 퍼져 있으면 통합
=table A, B에 동일 데이터가 있으면 Merge 한다, view로 대처 하기도 한다
7 Data analysis =코드와 알고리즘을 사용해 실제 결과 호출
=실제 가치를 생성하는 단계, 패턴, 통계적 기술 사용
=2개의 타입 존재
==confirmatory = 가설 확인/분석
==exploratory = inductive approach(귀납적 접근) 데이터 mining
8 Data visualization =방대한 양의 data를 차트, 그래프로 표현함
9 Utilization of analysis result =프로젝트의 결과를 어디에 사용할지 생각
==기존 설계된 business model 이 아닌 “다른” 곳에 사용할 수 있는지 확인 하는 단계



댓글 없음:

댓글 쓰기