머신러닝, 딥러닝/딥러닝15 BERT로 한글 영화 리뷰 감성분석 하기 📚 BERT를 이용한 영화 한글리뷰 감성 분석 ✔ 🏷️📌📘 • 설명 일반적으로 한글 텍스트 분석은 영어보다 전처리 과정이 까다로운 편이다. 조사나 어미의 변화가 다양하고, 형태 변화에 따라서 단어의 의미가 달라지기 때문이다. BERT로 한글을 분석하는 방법은 크게 다음고 같다. 1.Hugging Face에서 제공하는 Multilingual BERT 사용 2.한글 데이터를 학습한 모델(KoBERT, KcBERT 등) 사용 https://github.com/SKTBrain/KoBERT https://github.com/Beomi/KcBERT 📚 1. 다국어 버전 BERT를 이용한 감성 분석 ✅ 1. 1 특성 기반 (feature based) 방법 다국어 버전 BERT는 여러 언어 중에서 문서의 수가 많은 상.. 2022. 2. 17. BERT로 영화 리뷰의 감성 분석하기 📚 BERT를 이용한 영화 리뷰 감성분석 BERT를 이용해서 영화 리뷰를 긍정/부정으로 분류하는 감성 분석을 실시한다. 데이터는 IMDB 영화 데이터셋을 아래 링크에서 다운받아서 사용한다. https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2 BERT는 한개 또는 두개의 문장을 입력받지만, BERT의 문장 단위는 실질적으로 사용되는 의미론적인 문장과 다르기 때문에 512개의 토큰까지 하나의 문장으로 간주해서 입력할 수 있다. ✅ 특성 기반 방법 (Feature Based ) vs 미세 조정 방법 (Fine Tuning) 감성 분류는 크게 두 가지 방식으로 접근할 수 있다. 📌1. 특정 기반 방식 : Feature.. 2022. 2. 14. BERT 기본 개념 📚 BERT : Bidirectional Encoder Representation from Transfomer ✅ BERT 개요 📌 BERT 란? 이미지 분석에서 사전학습 모형을 사용하는 것처럼 텍스트 데이터를 미리 학습한 사전학습 모델이다. BooksCorpus (800M words)와 Wikipedia(2,500M words)를 이용해서 학습하였다. 트랜스포머에서 encoder 부분만 사용한 모델이며, MLM / NSP 방식으로 학습을 진행한다. 📌 출처 논문 Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understand.. 2022. 2. 13. 오토인코더(Autoencoder), 합성곱 오토인코더(Convolutional Autoencoder) 📚 오토인코더 (Autoencoder) 오토인코더는 비지도학습 모델로, 입력 데이터의 패턴을 학습해서 최대한 유사한 데이터를 새롭게 생성한다. 데이터가 입력되면 encoder를 통해서 저차원의 벡터로 변환되고, 이를 decoder가 받아서 결과물을 출력한다. encoder 부분은 입력 받은 정보에서 불필요한 정보를 제외하고 차원을 축소하는 역할을 한다. decoder 부분은 주로 데이터의 차원을 축소해서 feature extraction 목적으로 많이 사용된다. generative model에도 사용되는데 최근에는 보다 성능이 좋은 GAN이 많이 사용된다. 오토인코더에서는 입력된 값을 그대로 예측해서 출력하는 것을 목적으로 한다. 즉, 정답 = 입력값 이므로 정답에 대한 레이블링이 필요없다. 이러한 지도.. 2022. 1. 21. Transfomer 기본 개념 정리 📚 seq2seq (sequence to sequence) 방식의 한계점 트랜스포머 등장 전에는 순환신경망을 기반으로 한 인코더/디코더 모형인 seq2seq이 많이 사용되었다. seq2seq은 하나의 시퀀스 데이터에서(인코더) 또 다른 시퀀스 데이터(디코더)를 생성하는 모델이다. (ex. 한국어 -> 영어로 번역) Encoder : 입력된 텍스트 데이터를 숫자 혹은 벡터 형태로 변환한다. 최종적으로 가장 마지막에 출력되는 h4를 디코더 부분으로 전달하는데, h4에는 h1~h3까지의 정보가 순차적으로 포함되어 있으므로 순서를 반영할 수 있다고 본다. Decoder : 인코더에 의해 숫자로 변경된 정보를 다른 형태의 텍스트 데이터로 변환한다. 예를 들어, '오늘은 금요일 입니다' 라는 시퀀스 데이터를 'To.. 2022. 1. 20. LSTM, Bidirectional LSTM 📚 LSTM 개념 설명 ✅ RNN의 문제점 ✔ Problem of long term dependency (장기의존문제) 입력된 문서에서 상대적으로 초반부에 등장하는 단어들의 정보가 제대로 반영되지 않는다. 즉, 마지막 time step에 대한 RNN층의 출력 hidden state만 다음 층으로 전달하게 되면 앞쪽 RNN층의 정보를 잘 학습하지 못한다. ✅ LSTM (Long Short Term Memory) 기본적인 작동 원리는 RNN과 동일하다 즉, 현재 time step인 t에서 단어 t에 대한 벡터 정보(xt)와 이전 은닉층에서 전달하는 hidden state 정보를 담고 있는 벡터 ht-1를 같이 입력받는다. RNN이 가지는 장기의존문제를 개선하기 위해서 LSTM은 기억 셀(memory cell.. 2022. 1. 19. 이전 1 2 3 다음