Python
-
[텍스트마이닝] 한글 Document clusterPython 2023. 2. 16. 18:01
동아대 INSPIRE - python텍스트마이닝 29강을 실습 및 정리한 내용입니다. 이번 글에서는 한글 문서 간 군집 분석을 실습해 보겠습니다. 1. 패키지/데이터 불러오기, TFIDF기준 DTM 만들기 먼저 필요한 패키지들을 불러옵니다. 여기서 KMeans는 반복을 통한 군집분석을, dendrogram은 그림으로 시각화하는 패키지입니다. 분석의 결과와 그림의 결과가 다르게 나올 수 있는데 잘못된 것은 아니라는 점을 알고 있으면 됩니다. import numpy as np import pickle from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from scipy.cluster.hie..
-
[텍스트마이닝] 단어연관 및 word networkPython 2023. 2. 10. 15:00
동아대 INSPIRE - python텍스트마이닝 26강을 실습 및 정리한 내용입니다. 지난 글에서는 한글 단어들의 빈도 분석을 실습했었는데요! 이번에는 단어들의 상관관계를 파악해 보고, 단어들간의 연관을 network 그림으로 그려 보겠습니다. 1. 패키지 및 데이터 불러오기 먼저 필요한 패키지들을 불러옵니다. import numpy as np from sklearn.feature_extraction.text import CountVectorizer from matplotlib import font_manager import matplotlib.pyplot as plt import networkx as nx import pickle 저장되어 있는 파일을 불러옵니다. 연관 분석을 할 때는 단어들이 하나의 ..
-
[텍스트마이닝] 한글 빈도분석과 WordCloudPython 2023. 1. 27. 15:00
동아대 INSPIRE - python텍스트마이닝 25강을 실습 및 정리한 내용입니다. 1. 분석 명령어 ① 패키지 및 데이터 불러오기 먼저, 필요한 명령어들을 불러옵니다. import numpy as np from sklearn.feature_extraction.text import CountVectorizer from matplotlib import font_manager import matplotlib.pyplot as plt from wordcloud import WordCloud import pickle 지난 강의에서 만들었던 한글 파일을 여는 코드를 fp라고 임의로 지정하고, pickle을 로드하여 ko_word에 저장합니다. with open('ko_stopped_join.bin', 'rb')..
-
[텍스트마이닝] LDA 결과의 시각화Python 2023. 1. 16. 09:00
동아대 INSPIRE - python 텍스트마이닝 20강을 정리한 내용입니다. LDA 결과의 시각화는 저장된 파일을 불러와서 명령어를 실행하기만 하면 됩니다. 하지만 시각화된 결과를 분석하는 것이 중요합니다. 1. 분석 명령어 LDA 결과의 시각화 !pip install pyLDAvis import pyLDAvis.gensim_models pyLDAvis를 설치하고, 이를 사용하기 위해서 gensim_models를 불러옵니다. (강의 자료엔 gensim이라고 되어 있는데 명명이 변경되었음) en_dict = gensim.corpora.Dictionary.load_from_text('en_lda_dict.txt') en_corpus = gensim.corpora.MmCorpus('en_lda_corpus...
-
[텍스트마이닝] Text Clustering 개념 및 활용Python 2023. 1. 4. 16:56
동아대 INSPIRE - python 텍스트마이닝 15강을 정리한 내용입니다. 1. Text Clustering 개념 Clustering이란, 개체들을 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는 방법으로서, 통계적으로는 개체들의 유사성(Similarity)과 상이성(Dissimilarity)에 근거하여 군집을 찾고 자료를 요약하는 탐색적인 자료 분석 방법이다. 2. 거리 계산 방법 ① 거리의 계산: 유사성/상이성의 기준 중고등학생 때 배웠던 유클리드의 거리를 활용해, 점과 점 사이의 거리를 계산하여 유사성 또는 상이성을 측정할 수 있다. 가까우면 유사성, 멀면 상이성이 될 것이다. 소득과 지출을 변수로 하는 세 사람이 있다. 20을 벌고 100을 쓰는 사람, 50을 벌고 20..
-
[텍스트마이닝] 단어 연관 분석과 Word NetworkPython 2022. 12. 28. 23:11
동아대 INSPIRE - python 텍스트마이닝 12강을 정리, 실습한 내용입니다. 1. TF와 TF-IDF 왼쪽에 문서, 위쪽에 단어가 있는 형태를 Document Term Matrix, 즉 DTM이라고 하고, 반대로 되어 있는 경우는 TDM이라고 한다. DTM은 문서 간의 관계나 문서 간의 근접성을 파악하는 데이터로서 D-Clusting, 빈도-클라우드, 상관관계 파악을 하는데에 적합하고 TDM은 단어를 기준으로 클러스팅하는 데에 적합하다. DTM과 TDM을 곱하면 TTM(단어와 단어 간의 관계)를 나타낼 수 있다. 이 형태는 많은 메모리를 필요로 하기 때문에 edge list(단어-단어-빈도)로 변환해 분석한다. model system algorithm data clinic mobile 문서 1 ..