diff --git a/_posts/2021-08-01-electra.md b/_posts/2021-08-01-electra.md new file mode 100644 index 0000000..97c9cc2 --- /dev/null +++ b/_posts/2021-08-01-electra.md @@ -0,0 +1,181 @@ +--- +layout: post +title: "ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately" +author: taekyoon.choi +categories: [paper] +tags: [electra] + +--- + +--- +## ELECTRA + +ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 모델은 기존 BERT보다 빠른 속도록 학습을 하면서 더 좋은 성능을 내는 모델로 소개 되었습니다. +기존의 BERT의 Masked Token Prediction 방식을 활용하지 않고 Replaced Token Detection 방식으로 downstream task를 더 잘하는 Pretrained Model에 대해서 소개하는데요. +Electra-base 기준 GLUE 점수가 BERT-base에 비해 약 3점정도가 높은 것을 확인할 수 있습니다. +하지만, 이 논문에서는 BERT보다 성능이 좋다는 점 보다는 학습 속도측면에서 강점이 있는 점을 더 어필하였습니다. +NVIDIA V100 GPU 1대만으로 4일간 학습하면 Bert-small 모델보다 더 나은 성능의 퍼포먼스를 보여 빠른 학습과 성능 괜찮은 Language PLM을 소개하였습니다. + +### 소개 + +이 논문에서는 BERT의 MLM(Masked Language Model)의 학습 비용이 많이 드는 점을 들어 자신들이 제안할 Replaced Token Detection을 이야기 하고자 하고 있습니다. +Replaced Token Detection은 말 그대로 텍스트에 있는 토큰들 중 바뀐 토큰을 탐지하는 테스크인데요. +여기서 Replace 되는 입력 텍스트는 MLM 모델을 활용하여 생성된 토큰들을 활용하였습니다. +이와 같은 방식으로 ELECTRA 모델은 기존의 BERT, RoBERTa 보다 빠른 시간에 더 나은 fine-tune 성능을 보였고 이를 NLP downstream 테스크를 대표하는 GLUE score로 표현했습니다. + +













