본문 바로가기

감성분석3

BERT로 한글 영화 리뷰 감성분석 하기 📚 BERT를 이용한 영화 한글리뷰 감성 분석 ✔ 🏷️📌📘 • 설명 일반적으로 한글 텍스트 분석은 영어보다 전처리 과정이 까다로운 편이다. 조사나 어미의 변화가 다양하고, 형태 변화에 따라서 단어의 의미가 달라지기 때문이다. BERT로 한글을 분석하는 방법은 크게 다음고 같다. 1.Hugging Face에서 제공하는 Multilingual BERT 사용 2.한글 데이터를 학습한 모델(KoBERT, KcBERT 등) 사용 https://github.com/SKTBrain/KoBERT https://github.com/Beomi/KcBERT 📚 1. 다국어 버전 BERT를 이용한 감성 분석 ✅ 1. 1 특성 기반 (feature based) 방법 다국어 버전 BERT는 여러 언어 중에서 문서의 수가 많은 상.. 2022. 2. 17.
BERT로 영화 리뷰의 감성 분석하기 📚 BERT를 이용한 영화 리뷰 감성분석 BERT를 이용해서 영화 리뷰를 긍정/부정으로 분류하는 감성 분석을 실시한다. 데이터는 IMDB 영화 데이터셋을 아래 링크에서 다운받아서 사용한다. https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2 BERT는 한개 또는 두개의 문장을 입력받지만, BERT의 문장 단위는 실질적으로 사용되는 의미론적인 문장과 다르기 때문에 512개의 토큰까지 하나의 문장으로 간주해서 입력할 수 있다. ✅ 특성 기반 방법 (Feature Based ) vs 미세 조정 방법 (Fine Tuning) 감성 분류는 크게 두 가지 방식으로 접근할 수 있다. 📌1. 특정 기반 방식 : Feature.. 2022. 2. 14.
RNN(순환신경망) 기본 📚 RNN(Recurrent Neural Network) 개념 ✅ RNN 이란 • RNN층은 기본 신경망인 FNN의 은닉층 형태와 동일하다. RNN층에서는 하나의 은닉층을 순차적으로 여러 번 반복해서 사용한다. • 텍스트나 비디오 등 순서를 가지고 연속적으로 나열되어 있는 sequence 데이터에 적합함 특히 텍스트 분석에서 단어들의 문맥적 의미 추출 또는 단어 간의 관계 추출에 사용됨. ✅ RNN 작동 방식 • RNN에 텍스트 데이터를 입력하기 위해서는 각 단어를 저차원의 벡터로 표현해야 한다(벡터의 차원 = 벡터의 원소 수) 저차원으로 변환해서 표현한 벡터를 Embedding vector라고 한다. 파이토치 위키독스에 설명이 잘 되어 있음(https://wikidocs.net/60852) • 단어를 .. 2022. 1. 14.