Contrastive Knowledge Distillation from A Sample-wise Perspective
Link: https://arxiv.org/pdf/2404.14109Summary$\mathcal{L}_{\text{intra}} = \frac{1}{n} \sum{i=0}^{n} d\left( t_i, s_i \right)$위 수식에서 $t_i$와 $s_i$가 가깝도록 학습을 하게 되는데, 이게 $d\left( t_i, s_i \right) Loss가 0이더라도 student가 teacher의 내부 표현의 구조나 결정 경계를 배움에는 한계가 있다.Teacher’s raw score before softmax: [0.4, 0.4], [0.6, 0.6] → [0.5, 0.5], [0.5, 0.5]Student’s raw score before softmax: [1.4, 1.4], [5.6, 5.6] → [..