AI & GPU
지식 증류 (Knowledge Distillation)
Tech Crunchy
2025. 5. 24. 00:03
728x90
개요
지식 증류(Knowledge Distillation)는 Teacher 모델 지식을 Student 모델로 전달하여 모델 경량화와 성능 유지를 동시에 달성하는 기법입니다. 2014년 제프리 힌튼 등의 연구에서 처음 제안되었으며, 최근 생성 AI와 LLM 분야에서 활발히 활용되고 있습니다.

내용
지식 증류는 대규모로 학습된 Teacher 모델의 지식을 경량화된 Student 모델로 이전하는 기법입니다. 이 과정을 통해 큰 모델이 가진 높은 성능을 유지하면서도, 연산 비용이 적고 배포가 쉬운 작은 모델을 만들 수 있습니다.
- Teacher 모델: 대량의 데이터와 연산 자원을 활용해 학습된 대형 모델로, 높은 정확도와 복잡한 패턴을 학습
- Student 모델: 단순하고 연산량이 적은 소형 모델로, 교사 모델의 지식을 전달받아 학습
Teacher-Student 프레임워크는 지식 증류의 핵심 메커니즘입니다. 모델 압축과 효율적 지식 전이를 통해 고성능 Teacher 모델의 출력 분포를 Student가 모방하도록 학습합니다. 이 때 학습 시, Student 모델은 Teacher 모델이 제공하는 하드 레이블(정답)과 소프트 레이블(확률 분포)을 모두 참고하여 학습합니다.
- 하드 레이블: 각 데이터 샘플이 정답 클래스 하나만을 갖는 One-Hot 형태의 정답
- 소프트 레이블: Teacher 모델이 입력 샘플에 대해 예측한 각 클래스의 확률 분포
지식 증류는 다양한 AI 분야에서 모델 경량화와 성능 유지를 위해 활발히 활용되고 있습니다.
- DistilBERT: BERT 모델의 40% 크기로 축소하면서 원본의 97% 성능 유지
- Llama 3.1 증류: 4,050억 파라미터 모델을 70B/8B 버전으로 압축하여 일부 벤치마크에서 Teacher 모델 초월
- GPT-4 경량화: 모바일 배포를 위해 추론 속도 3배 향상 및 메모리 사용량 70% 감소
지식 증류는 특히 학습데이터가 부족한 상황에서 효과적입니다. IBM에 따르면 Student 모델이 기존 학습 방식 대비 40% 적은 데이터로 Teacher 모델과 동등한 성능을 달성할 수 있다고 합니다.
728x90