2021년 11월 30일 화요일

Day_03. Bigdata Computing

Mapping phase
=hadoop의 동작 형태
=data에서 key – value 를 지정한다(grouping
=shuffle & sort – key를 기준으로 정렬
=key의 value 에서 value의 length 를 산정해서 count


Map-reduce 예제 – 1 – 연도별 최고 기온의 검색
=key부분에서 연도를 value에 온도를 지정


Map-reduce 예제 – 2
=card id가 짝수의 valance를 셋째 자리에서 올린다
=1000단위로 grouping 하고 각 group별 valance평균값 구하기


Pig-scrioting VS hive sql query
=sql이 편한 사람과 아닌 사람의 취향 차이라고 보면 쉬움


복잡한 map reduce를 대체할 pig lapin 이라는 언어를 제공한다
=map reduce api를 sql 과 비슷하게 깐다
=map reduce의 상위에서 동작하는 tool


Ambary
=시스템의 리소스를 관리하는 운영 프레임워크


Hadoop의 장/단점
=대표적으로 12개 정도가 장점이 있음
=fault tolerant 성능은 리포 시스템도 성능이 좋아야 한다


Hadoop의 단점
=작은 file 에 대한 저성능
==작은 파일을 쪼개서 다시 합쳐야 하기 때문에 성능이 느임
=security
==인증서 h/w등의 문제
=interactive processing
==hadoop은 batch process 만 지원한다
=process over head


Spark
=hadoop의 개선판
=데이터의 이동이 디스크에 부담을 줄이고 네트워킹을 이용함


MAP REDUCE의 분산 처리
=USER가 map reduce 데이터 처리를 위한 mapper와 reducer를 개발한다
=master node에 제출


YARN – Yet Another Resource Negotiator
=Hadoop 1.0 에서는 batch app
=Hadoop 2.0은 batch online streaming 등 다양한 방식이 등장해서 resource management module을 분리 시킨다


Task tracker – YARN 으로 변경


FLUME
=분산된 서버에서 들어오는 조각난 데이터를 STREAMING 모아서 batch를 동려준다


Sqoop
=RDBMS 시스템 통째로 HADOOP으로 부어주는 CONNECTOR


HBASE
=HDFS 위에서 실행되는 COLUMN ORIENTED non- relation DBMS
=SQL과 같은 구조화된 QUERY는 지원하지 않는다


Oozie
=hadoop작업을 관리하는 workflow scheduler system
=JOB의 시작과 종결 분기 조절을 자동화, 스케줄링 지원


ZOO – keeper
=분산 환경에서 서버간의 상호 조정이 필요시 distributed coordination service
=분산환경에서 자원을 배정한다
=데이터의 안전성 보장

댓글 없음:

댓글 쓰기