1.필요 package import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
2.임의의 dataframe 생성 & 확인
df = pd.DataFrame(np.random.randint(0,100,size=(100, 2)), columns=('x_axis','y_axis'))
print(df)
sns.lmplot('x_axis','y_axis',data=df, fit_reg = False,scatter_kws={"s":200})
plt.title('scatter plot')
4.DataFrame 을 기반으로 K-means 를 구성
element_data = df.values
kmeans = KMeans(n_clusters=5).fit(element_data)
5.결과값 확인
kmeans.labels_
**array type 임을 확인할 수 있다**
6.결과값 dataframe 에 새로운 column으로 추가
df['Cluster_id']=kmeans.labels_
sns.lmplot('x_axis','y_axis',data=df,fit_reg=False,scatter_kws={"s":150},hue="Cluster_id")plt.title('Kmeans plot')
댓글 없음:
댓글 쓰기