Transformer base 사이즈 모델들과 비교해 파라메터는 수십~수십배 적지만 여러 벤치마크에서의 성능은 최대 2%가량만 하락.
- Teacher model inference cost를 줄이기 위한 trick들
- Sentimental Analysis (Positive/Negative classification) task 수행
- Flask를 이용한 serving Docker image 제공
- BERT-Base 대비 1/455 수준의 파라메터 사용
Transformer base 사이즈 모델들과 비교해 파라메터는 수십~수십배 적지만 여러 벤치마크에서의 성능은 최대 2%가량만 하락.