본문 바로가기

Python6

[텍스트마이닝] 한글 Document cluster 동아대 INSPIRE - python텍스트마이닝 29강을 실습 및 정리한 내용입니다. 이번 글에서는 한글 문서 간 군집 분석을 실습해 보겠습니다. 1. 패키지/데이터 불러오기, TFIDF기준 DTM 만들기 먼저 필요한 패키지들을 불러옵니다. 여기서 KMeans는 반복을 통한 군집분석을, dendrogram은 그림으로 시각화하는 패키지입니다. 분석의 결과와 그림의 결과가 다르게 나올 수 있는데 잘못된 것은 아니라는 점을 알고 있으면 됩니다. import numpy as np import pickle from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from scipy.cluster.hie.. 2023. 2. 16.
[텍스트마이닝] 단어연관 및 word network 동아대 INSPIRE - python텍스트마이닝 26강을 실습 및 정리한 내용입니다. 지난 글에서는 한글 단어들의 빈도 분석을 실습했었는데요! 이번에는 단어들의 상관관계를 파악해 보고, 단어들간의 연관을 network 그림으로 그려 보겠습니다. 1. 패키지 및 데이터 불러오기 먼저 필요한 패키지들을 불러옵니다. import numpy as np from sklearn.feature_extraction.text import CountVectorizer from matplotlib import font_manager import matplotlib.pyplot as plt import networkx as nx import pickle 저장되어 있는 파일을 불러옵니다. 연관 분석을 할 때는 단어들이 하나의 .. 2023. 2. 10.
[텍스트마이닝] 한글 빈도분석과 WordCloud 동아대 INSPIRE - python텍스트마이닝 25강을 실습 및 정리한 내용입니다. 1. 분석 명령어 ① 패키지 및 데이터 불러오기 먼저, 필요한 명령어들을 불러옵니다. import numpy as np from sklearn.feature_extraction.text import CountVectorizer from matplotlib import font_manager import matplotlib.pyplot as plt from wordcloud import WordCloud import pickle 지난 강의에서 만들었던 한글 파일을 여는 코드를 fp라고 임의로 지정하고, pickle을 로드하여 ko_word에 저장합니다. with open('ko_stopped_join.bin', 'rb').. 2023. 1. 27.
[텍스트마이닝] LDA 결과의 시각화 동아대 INSPIRE - python 텍스트마이닝 20강을 정리한 내용입니다. LDA 결과의 시각화는 저장된 파일을 불러와서 명령어를 실행하기만 하면 됩니다. 하지만 시각화된 결과를 분석하는 것이 중요합니다. 1. 분석 명령어 LDA 결과의 시각화 !pip install pyLDAvis import pyLDAvis.gensim_models pyLDAvis를 설치하고, 이를 사용하기 위해서 gensim_models를 불러옵니다. (강의 자료엔 gensim이라고 되어 있는데 명명이 변경되었음) en_dict = gensim.corpora.Dictionary.load_from_text('en_lda_dict.txt') en_corpus = gensim.corpora.MmCorpus('en_lda_corpus... 2023. 1. 16.