본문 바로가기
공부자료/Deep Learning

비지도학습 (2)

by mogazi 2022. 9. 25.
  • 밀도 기반 군집 분석 (density-based spatial clustering of application of noise)

 

K - 평균 군집화와는 다르게 사전에 클러스터의 숫자를 알지 못할 떄 사용하면 유용하다.

또, 주어진 데이터에 이상치가 많이 포함되었을 때 사용하면 좋다.

 

 

밀도기반 군집분석은 어떤 동일한 군집에 있는 데이터들은 서로 비슷한 위치에 있을 것이다, 

즉, 밀도가 높을 것이라는 가정을 하여 분석하는 기법이다.

 

 

 

 

 

DBSCAN에서 가장 중요한 의사 결정은 “밀도가 높은 지역을 어떻게 정의하느냐” 이다.

 

 

 

밀도가 높은 지역을 정의하기 위해서 두 가지의 개념이 사용되는데 바로 지정거리(e, eps)과 e 거리 이내의 필요한 최소 데이터 개수 n이다.

 

e는 어떤 데이터 포인트를 기준으로 탐색할 거리를 의미한다.

즉, 해당 데이터를 기준으로 반지름 e를 갖는 지역을 알 수 있다. 

n은 해당 데이터를 기준으로 e 거리 안에 필요한 데이터 개수이다.. 

 

밀도가 높은 지역이란 어떤 데이터를 기준으로 e 거리 안에 필요한 최소 데이터 수 n개보다 많은 것을 의미한다.

 

 

 

 

 

 

 

1. 엡실론 내 점 개수 확인 및 중심점 결정

 

 

 

우선 밀도가 높은 지역의 중심점, 위의 그림에서는 x1을 core point라고한다..

core point는 하나로 정의되는 것이 아니라 거리 e 안에 n개 이상의 샘플을 갖는 데이터이다.

 

 

 

 

 

 

 

 

 

2. 군집 확장

 

 

 

밀도 기반 군집 분석은 밀도 기반이기 때문에 주위의 점들을 대상으로 중심점을 설정하고 새로운 군집을 생성하는 것이 가능하다.

 

 

 

 

  군집 2개를 하나의 군집으로 확대한다.

 

 

 

 

위의 그림처럼 x3는 x2가 core point로 되는 지역 안에 있는 데이터이다. 

하지만 core point의 요건을 만족하지 못하여 밀도가 높은 지역을 형성할 수 없다. 

 

 

이 경우에 x3를 ‘border point(경계 포인트)라고 합니다. 

다시 말해 연결된 밀도 높은 지역들을 통해 군집을 확장하다가 해당 경계 포인트에서 확장을 멈춘다.

 

 

 

 

 

 

 

 

 

 

3. 노이즈 정의

 

 

noise point는 core point, border point가 아닌 데이터로 어떤 군집에도 속하지 못한 데이터이다.

'공부자료 > Deep Learning' 카테고리의 다른 글

강화학습  (0) 2022.09.25
학습 과정  (0) 2022.09.25
비지도학습 (1)  (0) 2022.09.25
로지스틱 회귀  (0) 2022.09.25
선형 회귀 (2)  (0) 2022.09.25