2020년 3월 19일 목요일

Day_00. Intro_05

Pandas groupy by 기능
-많은 data의 반복작업에 중요함
-column indexing 을 groupby에 사용하면 편리함
-Loop 를 사용하지 않고 group by를 사용하면 대용량 데이터 처리도 빠르게 할 수 있음

**seaborn package를 이용해서 실습**
--seaborn 이란? - python에서 matplotlib를 기반으로 만든 데이터 시각화 데이터셋

import numpy as np
import pandas as pd
import seaborn as 눈

planets = sns.load_dataset('planets')
planets.shape
---seaborn 에서 planets 데이터셋을 불러온다

planets.head(1000)


planets.tail()

--head와 tail을 이용해 data를 살펴본다

planets.count()
planets.max()


---min(),mean(),std,var,mad() 등의 옵션이 가능함,

planets.columns
-- Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')
-----해당 dataset의 column의 이름을 추출해서 보여줌

Groupby를 이용한 column indexing
-- planets.groupby('method').groups


planets.groupby('method')['year'].describe()

planets.groupby('method')['year'].describe()
Filtering
--group by의 결과에서 특정조건에 맞는 data만 가져다가 사용 가능하게 하는 것

Apply
--groupby에서 결과에서 적용하는 특정값을 지정하는 것

**언제 apply, aggregate, filter, transform을 사용 해야하나**
--aggregate – 각 그룹의 단일값 사용
--filter row의 subset을 취할 때
--transform 각 row에 새로운 값을 넣을때

댓글 없음:

댓글 쓰기