2021년 11월 30일 화요일

Day_02. Bigdata Computing

고전적 데이터 처리 vs 빅데이터 처리

Traditional data processing

Bigdata processing

Query language

Machine learning

OLTP , OLAP

Natural language processing

Data warehouse

 

Decision support tool

 

RDB

 

Transaction base system

Massively distribution



Hadoop 의 특징
=scalable – 장비의 증가는 장비의 성능을 선형적으로 향상시킴
=data locality – 데이터가 있는곳에 소스를 보내서 로직을 수행
=fault tolerant – 데이터 복사본을 중복 저장하고 유지시킴
=simple – 분산된 컴퓨터에서 병렬적으로 처리되는 프로그램을 쉽게 개발할 수 있다
=open source – 라이선스 부담이 적음


Hadoop distributed file system – HDFS
=대용량 파일 읽기 쓰기 작업에 최적화된 파일 시스템
=모든 파일을 128MB Block 으로 split 하고 각 block에 대한 2개의 copy를 복제해서 node에 분산 저장


Map reduce
=대용량의 데이터를 분산 처리하기 위한 framework
=Map – 분산되어있는 데이터를 연고나성 있는 데이터로 분류
=Reduce – 원하는 데이터를 추출한다


Hadoop ecosystem
=HDFS , MAP REDUCE , YARN 이 핵심 module


Why Hadoop invented
=storage for large dataset value
=handing datain different formats
= data getting generated with high speed


Hadoop as solution
=큰 데이터를 저렴한 비용으로 저장할 수 있어야 하며 빠르게 처리할 수 있어야 한다
=분산 파일 시스템 – Hadoop distributed file system
=분산 처리 시스템 – hap reduce – 여러 시스템에 나누어서 처리
=미국 newyorktimes 에서 130년 분량의 신문기사를 pdf로 변환 , 1일 200만원 소요
==hadoop의 저비용 고효율 사례


Hadoop echo system
=hadoop의 기능을 보완하는 다양한 서브 프로젝트의 모임
=빅데이터 수집 저장 처리 분석 시각화에 필요한 기술의 모임
=vendor마다 서로 다른 요구에 따라 echo system 구축


Components of hdfs
=data node – 실제 데이터를 저장하는 node
=name(master) node = 파일 시스템의 namespace를 관리, client가 file에 접근하는 것을 제어 ==naming file 과 dictionary 를 열고 닫는 task를 수행하는 node

댓글 없음:

댓글 쓰기