본문 바로가기

Bert3

BERT로 한글 영화 리뷰 감성분석 하기 📚 BERT를 이용한 영화 한글리뷰 감성 분석 ✔ 🏷️📌📘 • 설명 일반적으로 한글 텍스트 분석은 영어보다 전처리 과정이 까다로운 편이다. 조사나 어미의 변화가 다양하고, 형태 변화에 따라서 단어의 의미가 달라지기 때문이다. BERT로 한글을 분석하는 방법은 크게 다음고 같다. 1.Hugging Face에서 제공하는 Multilingual BERT 사용 2.한글 데이터를 학습한 모델(KoBERT, KcBERT 등) 사용 https://github.com/SKTBrain/KoBERT https://github.com/Beomi/KcBERT 📚 1. 다국어 버전 BERT를 이용한 감성 분석 ✅ 1. 1 특성 기반 (feature based) 방법 다국어 버전 BERT는 여러 언어 중에서 문서의 수가 많은 상.. 2022. 2. 17.
BERT로 영화 리뷰의 감성 분석하기 📚 BERT를 이용한 영화 리뷰 감성분석 BERT를 이용해서 영화 리뷰를 긍정/부정으로 분류하는 감성 분석을 실시한다. 데이터는 IMDB 영화 데이터셋을 아래 링크에서 다운받아서 사용한다. https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2 BERT는 한개 또는 두개의 문장을 입력받지만, BERT의 문장 단위는 실질적으로 사용되는 의미론적인 문장과 다르기 때문에 512개의 토큰까지 하나의 문장으로 간주해서 입력할 수 있다. ✅ 특성 기반 방법 (Feature Based ) vs 미세 조정 방법 (Fine Tuning) 감성 분류는 크게 두 가지 방식으로 접근할 수 있다. 📌1. 특정 기반 방식 : Feature.. 2022. 2. 14.
BERT 기본 개념 📚 BERT : Bidirectional Encoder Representation from Transfomer ✅ BERT 개요 📌 BERT 란? 이미지 분석에서 사전학습 모형을 사용하는 것처럼 텍스트 데이터를 미리 학습한 사전학습 모델이다. BooksCorpus (800M words)와 Wikipedia(2,500M words)를 이용해서 학습하였다. 트랜스포머에서 encoder 부분만 사용한 모델이며, MLM / NSP 방식으로 학습을 진행한다. 📌 출처 논문 Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understand.. 2022. 2. 13.