원으로 들어갈 때 --> | Narrowed Problem =좁아지는 도메인 지식 =넓어지는 프로그래밍(코딩) 능력 |
원 밖으로 나올 때 <-- | Widen insight =넓어지는 도메인 지식 =좁아지는 프로그래밍 능력 |
상세 특징
Data analytics life cycle
==데이터 분석의 요구사항 해결을 위한 activity는 어떤 것이 있을까?
궁금증의 근거
=기존 traditional data와는 다르게 volume, velocity, variety 특성이 있다
분석 단계
=어떻게 data를 획득 할수 있는가? – 이 데이터를 어떻게 processing 하는가? – processing 의 결과를 어떻게 분석하는가? – 분석된 data를 어떻게 사용할 것인가
단계별 특징
=단계별로 새로운 결과가 나올 수 있음
Data 분석시 필요한 사람들
구성 단계 diagram
Data Science | 가장 포괄적 개념 수학, 통계, 프로그래밍, 문제해결의 맥락 일반화 가능한 특징을 나타내는 방법론 데이터를 조금 다르게 바라보는 것 =중요기술 ==data cleansing, preparing , aligning |
Analysis | 휴리스틱(heuristic) activity = 데이터가 같지만 작업자에 따라 결과가 다르다 <->systematic – 같은 데이터로 누가 작업해도 결과가 같은것 Data science 는 분석 결과가 같아야 한다는 보장이 없기 때문이다 =단계의 목적 **어떠한 특징을 얻어내는 것(작업자에 의해 결과는 달라질 수 있다) |
Analytics | 일반화된 model 을 생성 하는 것 결정을 내리는데 필요한 back data 를 생성하는 것 Systematic 한 특성 – model을 기반으로 하기 때문 요구되는 지식 =컴퓨터 사이언스, 수학, 통계, domain knowledge **output of data analytics is a verified hyphothesis insight into the data --analytics 의 결과는 데이터에서 검증된 가설을 뽑아내는 것 |
Mining | 큰 dataset 에서 특정 pattern 을 추출하는 것 기계학습, 통계 database의 지식이 필요 ==프로그래밍 능력이 매우 중요하다 Pattern 을 찾아내는 단계 e-commerce 에서 특정 상품 구매자가 또 구매한 패턴 추출등 |
Data analytics life cycle
==데이터 분석의 요구사항 해결을 위한 activity는 어떤 것이 있을까?
궁금증의 근거
=기존 traditional data와는 다르게 volume, velocity, variety 특성이 있다
분석 단계
=어떻게 data를 획득 할수 있는가? – 이 데이터를 어떻게 processing 하는가? – processing 의 결과를 어떻게 분석하는가? – 분석된 data를 어떻게 사용할 것인가
단계별 특징
=단계별로 새로운 결과가 나올 수 있음
Data 분석시 필요한 사람들
Customer Layer | Business user | Domain의 지식이 있는 사람 |
Project sponser | 요구사항을 제공하는 사람(발주처) | |
Producer layer |
Project manager |
Project leader |
Business intelligence analyst | Business domain expertise | |
DBA | DB environment expert | |
Data engineer | Support analytic sandbox developer – 구현 | |
Data scientist | Provide analytic techniques & modeling |
구성 단계 diagram
단계 | 이름 | 설명 |
1 | Business case evaluation | =분석의 결과가 무엇인지 명확하게 한다 =Project onject의 이해, 문제를 data mining으로 어떻게 매핑(design)시킬 것인가 논의 =Business problem 의 defined Ekfk 필요한 data들이 다르다, 이를 명확히 하는 단계 |
2 | Data identification | =Data의 출처를 명확히 한다 =데이터를 받아온다면 신뢰도를 확인(N/A값이나 맞지 않는 DATA는 있는지) =다양한 Data source 에서 받아온다면 숨겨진 pattern 과 correlation 은 얼마나 되는지 확인 |
3 | Data acquisition | =Data gathering, filtering out of corrupt data, merge ==데이터의 필터링과 머징 =대부분 상황에서 중요한 작업을 시행 ==corrupt data – n/a값, 비상식적 데이터 ===발생하는 문제 = 모든 n/a와 비상식적 데이터를 삭제 해야 하는가 =meta data 파악 ==meta data란? – data의 크기, 구조 mac time 등의 정보가 적혀있는 데이터의 명세서 같은 것 |
4 | Data extraction | =몇몇 data tool 에서 추출되지 않는 데이터를 수동 추출 =분석에 사용 하기 위해 알맞은 크기 & 형식으로 추출 ==ex)JSON, XML 등에서 DATA 추출 |
5 | Data validation & cleansing |
=데이터의 값, n/a, 형식 검증 =data redundant 검증 |
6 | Data aggregation & Representation |
=data가 여러 곳에 퍼져 있으면 통합 =table A, B에 동일 데이터가 있으면 Merge 한다, view로 대처 하기도 한다 |
7 | Data analysis | =코드와 알고리즘을 사용해 실제 결과 호출 =실제 가치를 생성하는 단계, 패턴, 통계적 기술 사용 =2개의 타입 존재 ==confirmatory = 가설 확인/분석 ==exploratory = inductive approach(귀납적 접근) 데이터 mining |
8 | Data visualization | =방대한 양의 data를 차트, 그래프로 표현함 |
9 | Utilization of analysis result | =프로젝트의 결과를 어디에 사용할지 생각 ==기존 설계된 business model 이 아닌 “다른” 곳에 사용할 수 있는지 확인 하는 단계 |
댓글 없음:
댓글 쓰기