K means clustering

2024. 2. 11. 09:48DATA/BIGDATA

반응형

K-means 클러스터링은 비지도 학습 알고리즘이다.

주어진 데이터를 K개의 클러스터로 그룹화하는 작업을 수행 이 알고리즘은 데이터를 클러스터 내의 평균으로 표현되는 중심으로 그룹화하며, 각 데이터 포인트는 가장 가까운 중심에 할당된다.


K-means 알고리즘 진행 단계는 첫 번째 K 개의 중심을 임의로 선택하거나 랜덤하게 배정하는 초기 중심 설정이다.
두 번째 각 데이터 포인트를 가장 가까운 중심에 할당한다.
세 번째, 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트들의 평균으로 업데이트한다.
네 번째 할당과 업데이트 단계를 반복하여 클러스터의 중심이 더 이상 변하지 않을 때까지 반복한다.

K-means 클러스터링은 간단하고 효율적인 알고리즘으로 데이터의 패턴을 발견하고 클러스터를 형성하는 데 유용하다. 그러나 클러스터의 개수(K)를 사전에 지정해야 하며, 초기 중심의 선택에 따라 결과가 달라질 수 있다.



# 데이터 불러오기
data(iris)
head(iris)

# 군집화에 사용할 특성 선택
features <- iris[, c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")]

# K-means 클러스터링
k <- 3  # 군집의 개수
set.seed(123)  # 랜덤 시드 설정
kmeans_result <- kmeans(features, centers = k)

# 클러스터 결과 확인
kmeans_result$cluster

# 클러스터 중심 확인
kmeans_result$centers


붓꽃 데이터셋을 활용하여 특성에 따른 군집 형성 코드이다.

물론입니다. 아래는 R을 사용하여 K-means 클러스터링을 수행하는 간단한 코드 예제입니다. 이 예제에서는 iris 데이터셋을 사용하여 꽃의 특성에 따라 군집을 형성합니다.


데이터 셋 꽃의 네 가지 특성(Sepal.Length, Sepal.Width, Petal.Length, Petal.Width)을 기반으로 K-means 클러스터링을 수행함.

군집의 개수는 k 변수에 지정되어 있으며, 여기서는 3으로 설정되어 있다.

클러스터링 결과는 kmeans_result$cluster를 통해 확인할 수 있으며, 클러스터의 중심은 kmeans_result$centers를 통해 확인할 수 있다.

반응형

'DATA > BIGDATA' 카테고리의 다른 글

기업의 데이터와 수집 관리  (0) 2024.02.24
방향과 백터  (0) 2024.02.17
논리와 추론  (0) 2024.02.07
휴리스틱 탐색  (0) 2024.02.02
데이터 분석 모델 평가  (0) 2024.01.11