딥러닝/논문 리뷰4 [논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 들어가며 BERT는 논문 이름에서 확인할 수 있는 것처럼, Transformer를 활용한 모델이며, 다양한 NLP tasks에 대한 pre-training 모델 역할을 하는 것이 가장 큰 특징이다. 해당 포스팅에서는 실험보다는 BERT 모델의 특징 위주로 살펴볼 예정이다. BERT에 대해 알아보기 앞서, transformer, attention, seq2seq에 대한 개념 이해가 완벽하지 않은 상태라면 먼저 해당 개념들을 익히고 오는 것을 추천한다. Abstract BERT(Bidirectional Encoder Representations from Transformers)는 다른 language representation models과 다르게, unlabeled text 데이터로부터 deep bidir.. 2022. 9. 4. [논문 리뷰] Attention Is All You Need 들어가며 이번 포스팅에서는 흔히 Transformer라고 불리는 모델을 제안한 Attention Is All You Need에 대해 알아보고자 한다. 해당 논문에서 제안하고 있는 Transformer 모델은 기존에 기계번역에서 사용되는 RNN의 단점을 보완하기 위해 등장한 모델이라 할 수 있다. Transformer는 RNN을 제거하고 Attention Mechanism을 활용하고 있으며, Transformer에 대해 알아보기 전에 Attention이 무엇인지 살펴보고자 한다. Attention Mechanism 등장배경 이전 포스팅에서 다룬 Seq2Seq 모델은 RNN을 활용한 인코더, 디코더 구조를 제안했다. 인코더에서는 문장의 단어들을 '순차적으로' 입력받아 하나의 고정된 크기의 Context Ve.. 2022. 8. 26. [논문 리뷰] Sequence to Sequence Learning with Neural Networks 이번 논문은 Seq2Seq로 불리는 논문인 Sequence to Sequence Learning with Neural Networks에 대해 알아보고자 한다. Seq2Seq가 현재의 state-of-art model은 아니기 때문에 Dataset에 대한 모델의 정확도와 상세한 실험 과정에 집중하기보다는 모델의 구조와 작동 원리, 특징에 대해 중점적으로 살펴볼 예정이다. Seq2Seq는 번역기에 활용되는 대표적인 모델로, RNN을 활용한다. 특히, RNN을 활용한 LSTM(Long Sort-Term Memory) 구조를 활용하였는데, 해당 논문에 대해 공부하기 전에 RNN과 LSTM에 대해 공부하면 좋을 것 같다. (둘 다 2000년도 이전에 발표된 논문에서 제안된 모델들이기 때문에 논문을 직접 읽기보다는.. 2022. 8. 16. [논문 리뷰] OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 이번 글에서는 R-CNN과 동일한 시기에 발표되어 R-CNN 보다는 detection task에서 낮은 성능을 보였지만, One-stage detector의 초기 모델로서 SSD, YOLO 등의 후속 모델에 큰 영향을 준 모델인 OverFeat이라는 논문을 읽고 정리해보았다. 모델의 실험 결과나 모델의 구체적인 구조보다는, 모델의 전반적인 특징을 위주로 정리하였다. 필자가 느끼기에 논문의 구성이 체계적이지 않고 모델에 대한 설명이 자세하지 않았기에 (논문을 많이 읽어본건 아니지만... 개인적으로 난잡하다고 느껴짐...ㅠㅠ) 논문을 이해하는데 굉장히 오랜 시간이 걸렸고, 논문 이해를 위해 다양한 추가 자료들을 찾아봤다. 가장 마지막에 References로서 참고한 자료들을 소개하겠다. Abstract Ov.. 2022. 7. 29. 이전 1 다음