K means clustering

K means clustering

2024. 2. 11. 09:48ㆍDATA/BIGDATA

K-means 클러스터링은 비지도 학습 알고리즘이다.

주어진 데이터를 K개의 클러스터로 그룹화하는 작업을 수행 이 알고리즘은 데이터를 클러스터 내의 평균으로 표현되는 중심으로 그룹화하며, 각 데이터 포인트는 가장 가까운 중심에 할당된다.

K-means 알고리즘 진행 단계는 첫 번째 K 개의 중심을 임의로 선택하거나 랜덤하게 배정하는 초기 중심 설정이다.
두 번째 각 데이터 포인트를 가장 가까운 중심에 할당한다.
세 번째, 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트들의 평균으로 업데이트한다.
네 번째 할당과 업데이트 단계를 반복하여 클러스터의 중심이 더 이상 변하지 않을 때까지 반복한다.

K-means 클러스터링은 간단하고 효율적인 알고리즘으로 데이터의 패턴을 발견하고 클러스터를 형성하는 데 유용하다. 그러나 클러스터의 개수(K)를 사전에 지정해야 하며, 초기 중심의 선택에 따라 결과가 달라질 수 있다.

# 데이터 불러오기
data(iris)
head(iris)

# 군집화에 사용할 특성 선택
features <- iris[, c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")]

# K-means 클러스터링
k <- 3  # 군집의 개수
set.seed(123)  # 랜덤 시드 설정
kmeans_result <- kmeans(features, centers = k)

# 클러스터 결과 확인
kmeans_result$cluster

# 클러스터 중심 확인
kmeans_result$centers

붓꽃 데이터셋을 활용하여 특성에 따른 군집 형성 코드이다.

물론입니다. 아래는 R을 사용하여 K-means 클러스터링을 수행하는 간단한 코드 예제입니다. 이 예제에서는 iris 데이터셋을 사용하여 꽃의 특성에 따라 군집을 형성합니다.

데이터 셋 꽃의 네 가지 특성(Sepal.Length, Sepal.Width, Petal.Length, Petal.Width)을 기반으로 K-means 클러스터링을 수행함.

군집의 개수는 k 변수에 지정되어 있으며, 여기서는 3으로 설정되어 있다.

클러스터링 결과는 kmeans_result$cluster를 통해 확인할 수 있으며, 클러스터의 중심은 kmeans_result$centers를 통해 확인할 수 있다.

'DATA > BIGDATA' 카테고리의 다른 글

기업의 데이터와 수집 관리 (0)	2024.02.24
방향과 백터 (0)	2024.02.17
논리와 추론 (0)	2024.02.07
휴리스틱 탐색 (0)	2024.02.02
데이터 분석 모델 평가 (0)	2024.01.11

JJ의메모장

JJ의메모장

태그

최근글

댓글

공지사항

아카이브

'DATA > BIGDATA' 카테고리의 다른 글

관련글

티스토리툴바