본문 바로가기

Python6

[텍스트마이닝] Text Clustering 개념 및 활용 동아대 INSPIRE - python 텍스트마이닝 15강을 정리한 내용입니다. 1. Text Clustering 개념 Clustering이란, 개체들을 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는 방법으로서, 통계적으로는 개체들의 유사성(Similarity)과 상이성(Dissimilarity)에 근거하여 군집을 찾고 자료를 요약하는 탐색적인 자료 분석 방법이다. 2. 거리 계산 방법 ① 거리의 계산: 유사성/상이성의 기준 중고등학생 때 배웠던 유클리드의 거리를 활용해, 점과 점 사이의 거리를 계산하여 유사성 또는 상이성을 측정할 수 있다. 가까우면 유사성, 멀면 상이성이 될 것이다. 소득과 지출을 변수로 하는 세 사람이 있다. 20을 벌고 100을 쓰는 사람, 50을 벌고 20.. 2023. 1. 4.
[텍스트마이닝] 단어 연관 분석과 Word Network 동아대 INSPIRE - python 텍스트마이닝 12강을 정리, 실습한 내용입니다. 1. TF와 TF-IDF 왼쪽에 문서, 위쪽에 단어가 있는 형태를 Document Term Matrix, 즉 DTM이라고 하고, 반대로 되어 있는 경우는 TDM이라고 한다. DTM은 문서 간의 관계나 문서 간의 근접성을 파악하는 데이터로서 D-Clusting, 빈도-클라우드, 상관관계 파악을 하는데에 적합하고 TDM은 단어를 기준으로 클러스팅하는 데에 적합하다. DTM과 TDM을 곱하면 TTM(단어와 단어 간의 관계)를 나타낼 수 있다. 이 형태는 많은 메모리를 필요로 하기 때문에 edge list(단어-단어-빈도)로 변환해 분석한다. model system algorithm data clinic mobile 문서 1 .. 2022. 12. 28.