Distilling Task-Specific Knowledge from Teacher Model into BiLSTM

Transformer base 사이즈 모델들과 비교해 파라메터는 수십~수십배 적지만 여러 벤치마크에서의 성능은 최대 2%가량만 하락.

  • Teacher model inference cost를 줄이기 위한 trick들
  • Sentimental Analysis (Positive/Negative classification) task 수행
  • Flask를 이용한 serving Docker image 제공
  • BERT-Base 대비 1/455 수준의 파라메터 사용

[Github Repo]

1개의 좋아요