-많은 data의 반복작업에 중요함
-column indexing 을 groupby에 사용하면 편리함
-Loop 를 사용하지 않고 group by를 사용하면 대용량 데이터 처리도 빠르게 할 수 있음
**seaborn package를 이용해서 실습**
--seaborn 이란? - python에서 matplotlib를 기반으로 만든 데이터 시각화 데이터셋
import numpy as np
import pandas as pd
import seaborn as 눈
planets = sns.load_dataset('planets')
planets.shape
---seaborn 에서 planets 데이터셋을 불러온다
planets.head(1000)
planets.count()
planets.max()
---min(),mean(),std,var,mad() 등의 옵션이 가능함,
planets.columns
-- Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')
-----해당 dataset의 column의 이름을 추출해서 보여줌
Groupby를 이용한 column indexing
-- planets.groupby('method').groups
planets.columns
-- Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')
-----해당 dataset의 column의 이름을 추출해서 보여줌
Groupby를 이용한 column indexing
-- planets.groupby('method').groups
--group by의 결과에서 특정조건에 맞는 data만 가져다가 사용 가능하게 하는 것
Apply
--groupby에서 결과에서 적용하는 특정값을 지정하는 것
**언제 apply, aggregate, filter, transform을 사용 해야하나**
--aggregate – 각 그룹의 단일값 사용
--filter row의 subset을 취할 때
--transform 각 row에 새로운 값을 넣을때
댓글 없음:
댓글 쓰기