Traditional data processing |
Bigdata processing |
Query language |
Machine learning |
OLTP , OLAP |
Natural language processing |
Data warehouse |
|
Decision support tool |
|
RDB |
|
Transaction base system |
Massively distribution |
Hadoop 의 특징
=scalable – 장비의 증가는 장비의 성능을 선형적으로 향상시킴
=data locality – 데이터가 있는곳에 소스를 보내서 로직을 수행
=fault tolerant – 데이터 복사본을 중복 저장하고 유지시킴
=simple – 분산된 컴퓨터에서 병렬적으로 처리되는 프로그램을 쉽게 개발할 수 있다
=open source – 라이선스 부담이 적음
Hadoop distributed file system – HDFS
=대용량 파일 읽기 쓰기 작업에 최적화된 파일 시스템
=모든 파일을 128MB Block 으로 split 하고 각 block에 대한 2개의 copy를 복제해서 node에 분산 저장
Map reduce
=대용량의 데이터를 분산 처리하기 위한 framework
=Map – 분산되어있는 데이터를 연고나성 있는 데이터로 분류
=Reduce – 원하는 데이터를 추출한다
Hadoop ecosystem
=HDFS , MAP REDUCE , YARN 이 핵심 module
Why Hadoop invented
=storage for large dataset value
=handing datain different formats
= data getting generated with high speed
Hadoop as solution
=큰 데이터를 저렴한 비용으로 저장할 수 있어야 하며 빠르게 처리할 수 있어야 한다
=분산 파일 시스템 – Hadoop distributed file system
=분산 처리 시스템 – hap reduce – 여러 시스템에 나누어서 처리
=미국 newyorktimes 에서 130년 분량의 신문기사를 pdf로 변환 , 1일 200만원 소요
==hadoop의 저비용 고효율 사례
Hadoop echo system
=hadoop의 기능을 보완하는 다양한 서브 프로젝트의 모임
=빅데이터 수집 저장 처리 분석 시각화에 필요한 기술의 모임
=vendor마다 서로 다른 요구에 따라 echo system 구축
Components of hdfs
=data node – 실제 데이터를 저장하는 node
=name(master) node = 파일 시스템의 namespace를 관리, client가 file에 접근하는 것을 제어 ==naming file 과 dictionary 를 열고 닫는 task를 수행하는 node
댓글 없음:
댓글 쓰기