-
[텍스트마이닝] Text Clustering 개념 및 활용Python 2023. 1. 4. 16:56
동아대 INSPIRE - python 텍스트마이닝 15강을 정리한 내용입니다.
1. Text Clustering 개념
Clustering이란, 개체들을 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는 방법으로서, 통계적으로는 개체들의 유사성(Similarity)과 상이성(Dissimilarity)에 근거하여 군집을 찾고 자료를 요약하는 탐색적인 자료 분석 방법이다.
2. 거리 계산 방법
① 거리의 계산: 유사성/상이성의 기준
중고등학생 때 배웠던 유클리드의 거리를 활용해, 점과 점 사이의 거리를 계산하여 유사성 또는 상이성을 측정할 수 있다. 가까우면 유사성, 멀면 상이성이 될 것이다.

소득과 지출을 변수로 하는 세 사람이 있다. 20을 벌고 100을 쓰는 사람, 50을 벌고 20을 쓰는 사람, 100을 벌고 100을 쓰는 사람 중 가장 큰 유사성을 가진 두 사람은 누구와 누구일까? 유클리드 거리 공식을 이용해 값을 구해 보자.

거리가 80으로 가장 작은 두 사람이 가장 유사하고, 거리가 94.3로 가장 큰 두 사람이 가장 상이함을 알 수 있다.
② 단어 간 거리
단어 간 거리를 계산하기 위해서는, 문서가 축(기준)이 되고 단어의 좌표 간의 거리를 계산한다. 이를 위해서는 TDM 형태의 자료가 필요하다.
문서 1 문서 2 문서 3 model 24 21 12 system 32 10 16 위 자료의 경우에 문서 1, 문서 2, 문서 3이 기준 변수가 되고 model, system 각 단어의 좌표 간의 거리를 계산하면 된다.

거리가 14.177로 계산되었다. 단어가 2개밖에 없기 때문에 지금은 이 두 단어가 유사한지 파악할 수 없지만, 여러 단어가 있다면 어떤 단어들이 같이 언급되는 경우가 많은지 파악할 수 있다.
③ 문서 간 거리
문서 간의 거리를 계산하기 위해서는 단어가 축(기준)이 되고 문서의 좌표 간의 거리를 계산한다. 이를 위해서는 DTM 형태의 자료가 필요하다.
model system algorithm 문서 1 24 21 9 문서 2 32 10 5 위 자료의 경우에는 model, system, algorithm이 기준 변수가 되고 문서 1과 문서 2의 좌표 간의 거리를 계산하면 된다.

④ 거리 계산 방법들
여러 기준 변수를 사용하여 개체 간의 거리를 계산하려면, 먼저 기준 변수를 표준화시킨 후에 거리 계산 방법을 이용해야 한다.
- 유클리드 거리 : 변수값 차이를 제곱하여 합산한 거리로 다차원 공간에서 직선 최단 거리를 의미한다. 가장 일반적으로 사용되는 방법이다.
- 제곱유클리드 거리 : 유클리드 거리를 제곱한 거리로, SPSS에서는 이 방법이 디폴트로 지정되어 있다.
- 체비셰프 거리 : 변수값 차이의 절대값 중 가장 큰 값을 환산한 거리
- 블록 거리 : 변수값 차이의 절대값을 합한 거리
- 민코우스키 거리 : 변수값 차이의 p제곱합의 1/p 누승근으로 환산한 거리

3. 군집화 방법
- 최단연결법 (Single Linkage Method, Nearest Neighbor Method)
- 최장연결법 (Complete Linkage Method, Furthest Neighbor Method)
- 중심연결법 (Centroid Linkage Method)
- 중위수연결법 (Median Linkage Method)
- 군집 간 평균 연결법 (Between Average Linkage Method) : 연속적인 자료일 경우 가장 많이 쓰이는 방법
- 군집 내 평균 연결법 (Within Average Linkage Method)
- 왈드 군집법 (Ward's Method) : 서열적인 자료일 경우 많이 쓰임
'Python' 카테고리의 다른 글
[텍스트마이닝] 한글 Document cluster (0) 2023.02.16 [텍스트마이닝] 단어연관 및 word network (2) 2023.02.10 [텍스트마이닝] 한글 빈도분석과 WordCloud (0) 2023.01.27 [텍스트마이닝] LDA 결과의 시각화 (0) 2023.01.16 [텍스트마이닝] 단어 연관 분석과 Word Network (0) 2022.12.28