본문 바로가기

딥러닝14

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 들어가며 BERT는 논문 이름에서 확인할 수 있는 것처럼, Transformer를 활용한 모델이며, 다양한 NLP tasks에 대한 pre-training 모델 역할을 하는 것이 가장 큰 특징이다. 해당 포스팅에서는 실험보다는 BERT 모델의 특징 위주로 살펴볼 예정이다. BERT에 대해 알아보기 앞서, transformer, attention, seq2seq에 대한 개념 이해가 완벽하지 않은 상태라면 먼저 해당 개념들을 익히고 오는 것을 추천한다. Abstract BERT(Bidirectional Encoder Representations from Transformers)는 다른 language representation models과 다르게, unlabeled text 데이터로부터 deep bidir.. 2022. 9. 4.
[논문 리뷰] Attention Is All You Need 들어가며 이번 포스팅에서는 흔히 Transformer라고 불리는 모델을 제안한 Attention Is All You Need에 대해 알아보고자 한다. 해당 논문에서 제안하고 있는 Transformer 모델은 기존에 기계번역에서 사용되는 RNN의 단점을 보완하기 위해 등장한 모델이라 할 수 있다. Transformer는 RNN을 제거하고 Attention Mechanism을 활용하고 있으며, Transformer에 대해 알아보기 전에 Attention이 무엇인지 살펴보고자 한다. Attention Mechanism 등장배경 이전 포스팅에서 다룬 Seq2Seq 모델은 RNN을 활용한 인코더, 디코더 구조를 제안했다. 인코더에서는 문장의 단어들을 '순차적으로' 입력받아 하나의 고정된 크기의 Context Ve.. 2022. 8. 26.
[딥러닝 프로젝트] CvT: Introducing Convolutions to Vision Transformers 들어가며 2022년 1학기에 수강한 Gaya 교수님의 '딥러닝 1: 이미지 처리' 수업의 기말 프로젝트 일환으로 CvT: Introducing Convolutions to Vision Transformers라는 논문의 발표와 코드 작성(기존의 코드를 목적에 맞게 reproducing) 프로젝트를 진행하였다. 인공지능 공부를 시작한 지 얼마 되지 않았기에 인공지능 분야의 논문을 제대로 읽어보는 것은 겨우 두 번째였고(첫 번째도 Gaya 교수님 중간 프로젝트의 일환으로 읽어 본 bias paper 였음...), Vision Transformers를 적용한 논문이었기에 딥러닝 초짜인 나에게 진입장벽이 굉장히 높았었다. CvT(Convolutions to Vision Transformers)를 이해하기 위해 V.. 2022. 8. 17.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks 이번 논문은 Seq2Seq로 불리는 논문인 Sequence to Sequence Learning with Neural Networks에 대해 알아보고자 한다. Seq2Seq가 현재의 state-of-art model은 아니기 때문에 Dataset에 대한 모델의 정확도와 상세한 실험 과정에 집중하기보다는 모델의 구조와 작동 원리, 특징에 대해 중점적으로 살펴볼 예정이다. Seq2Seq는 번역기에 활용되는 대표적인 모델로, RNN을 활용한다. 특히, RNN을 활용한 LSTM(Long Sort-Term Memory) 구조를 활용하였는데, 해당 논문에 대해 공부하기 전에 RNN과 LSTM에 대해 공부하면 좋을 것 같다. (둘 다 2000년도 이전에 발표된 논문에서 제안된 모델들이기 때문에 논문을 직접 읽기보다는.. 2022. 8. 16.