구 분 | 파 일 명 | 설 명 |
---|---|---|
01 | news data | 크롤링, 형태소 분석, 키워드 시각화 |
02 | review data | 크롤링, 형태소 분석, 키워드 시각화, N-gram, TF-IDF, word cloud |
- 협업 및 의사소통 능력 향상
- Crawling, TF-IDF를 이용한 키워드 추출
- 데이터 분석 능력 배양
- Word Cloud 생성
- Konlpy 라이브러리 활용 형태소 분석기 비교(OKT, Mecab) 및 사용법 숙달
- 리뷰 감성 분석
- 데이터 전처리(re 모듈 및 정규) 및 분석
- N-gram 이용 키워드 추출
- 10년 간 카메라 매출액이 1/4배로 급하락
- 카메라 시장의 변화 (DSLR 단종, 미러리스 발전)
-
크게 비교되는 두 회사(소니, 캐논)의 특징이 잘 드러남
→ 두 회사 및 제품들의 감성 분석 비교 용이
-
카메라 시장의 변화 추이가 뚜렷함
→ 토픽 모델링 시 변화 차이 확인 및 데이터 분석 용이
- 리뷰 감성 분석
-
네이버 쇼핑 제품 리뷰 약 12,000개
(캐논, 소니 카메라 제품 중 리뷰가 100개 이상인 제품)
-
- 토픽 모델링
- 카메라 관련 10개 언론사의 기사 약 14,000개
- 형태소 분석기
- konlpy (OKT, Mecab)
- TF-IDF
- 불용어 처리
- 1차 : 카메라와 관련 없는 단어를 불용어로 판단하여 제거
- 2차 : 카메라의 성능과 관련없는 단어를 불용어로 판단하여 추가 제거
- 데이터 시각화 (matplotlib, seaborn, plotly)
- 형태소 분석기
- OKT, Mecab이용 토큰화 및 품사 태깅 (명사, 형용사, 부사)
- TF-IDF
- 키워드 시각화
- 토픽 모델링
- N-gram
- word cloud
- cosine similarity(코사인 유사도) 활용 문서별 토픽 모델링 진행
- BERT 모델을 이용한 감성분석 진행
- 공통 : 불용어 사전 작성, 코드 정리, 발표자료 작성
- 국승용 : crawling (소니 카메라 리뷰), konlpy OKT, TF-IDF, Uni-gram, 키워드 시각화(word cloud), 발표
- 김채리 : crawling (소니 카메라 리뷰), konlpy OKT, TF-IDF, Bi-gram, 키워드 시각화(histogram)
- 손정환 : crawling (1~5번 언론사 뉴스 기사), konlpy OKT, 키워드 시각화(histogram)
- 양병진 : crawling (6~10번 언론사 뉴스 기사), konlpy OKT, 키워드 시각화(histogram)
- 최현호 : crawling (캐논 카메라 리뷰), konlpy Mecab, Bi-gram(부정 리뷰), 키워드 시각화(histogram)