네트워크분석
-
[텍스트마이닝] 단어 연관 분석과 Word NetworkPython 2022. 12. 28. 23:11
동아대 INSPIRE - python 텍스트마이닝 12강을 정리, 실습한 내용입니다. 1. TF와 TF-IDF 왼쪽에 문서, 위쪽에 단어가 있는 형태를 Document Term Matrix, 즉 DTM이라고 하고, 반대로 되어 있는 경우는 TDM이라고 한다. DTM은 문서 간의 관계나 문서 간의 근접성을 파악하는 데이터로서 D-Clusting, 빈도-클라우드, 상관관계 파악을 하는데에 적합하고 TDM은 단어를 기준으로 클러스팅하는 데에 적합하다. DTM과 TDM을 곱하면 TTM(단어와 단어 간의 관계)를 나타낼 수 있다. 이 형태는 많은 메모리를 필요로 하기 때문에 edge list(단어-단어-빈도)로 변환해 분석한다. model system algorithm data clinic mobile 문서 1 ..